机器学习 - 支持向量机的推导

支持向量机（Support Vector Machine，SVM）是一种用于分类和回归分析的机器学习算法，特别适用于高维数据。它的核心思想是找到一个最佳的超平面，将不同类别的样本进行正确的分类。

线性可分的情况

假设我们有两类数据集，我们希望找到一个超平面将这两类数据分开。对于二维数据，这个超平面就是一条直线；对于三维数据，它就是一个平面；更高维度的情况类似。SVM的目标是找到这个超平面，使得它不仅能分开这两类数据，还能使得两类数据离这个超平面尽可能远。
数学表示

对于一个超平面，我们可以用方程来表示： wx + b = 0 ，其中：
- w 是超平面的法向量。
- b 是数据点。
- (b) 是偏移量（bias）。
我们希望找到这样的 w 和 b ，使得超平面将两类数据分开，并且离每一类数据的最小距离最大化。
最大化间隔（Margin）

间隔是指从超平面到最近的一个数据点的距离。SVM希望最大化这个间隔。对于线性可分的情况，我们希望找到以下两个约束条件：
- 对于属于正类的点： $\mathbf{w} \cdot \mathbf{x}_i + b \geq 1$
- 对于属于负类的点： $\mathbf{w} \cdot \mathbf{x}_i + b \leq -1$
这两个约束可以统一为： $y_i (\mathbf{w} \cdot \mathbf{x}_i + b) \geq 1$ ，其中 $y_i$ 是数据点的标签，正类为1，负类为-1。
优化问题

现在我们的目标是找到 w 和 b，使得间隔最大化。这个优化问题可以转化为：

$\min_{\mathbf{w}, b} \frac{1}{2} ||\mathbf{w}||^2$

使得 $y_i (\mathbf{w} \cdot \mathbf{x}_i + b) \geq 1$

这里，我们用 $\frac{1}{2} ||\mathbf{w}||^2$ 作为目标函数是因为这样可以简化数学推导。

现实中，大多数数据集并不是线性可分的。为了处理这种情况，SVM引入了两种方法：软间隔和核技巧。

软间隔

为了允许少量的误分类，我们引入了松弛变量 $\xi_i$ 使得约束变为： $y_i (\mathbf{w} \cdot \mathbf{x}_i + b) \geq 1 - \xi_i$ ，并且 $\xi_i \geq 0$
目标函数变为：

$\min_{\mathbf{w}, b} \frac{1}{2} ||\mathbf{w}||^2 + C \sum_{i=1}^n \xi_i$

这里的 C 是一个超参数，用于控制间隔最大化和误分类数量之间的平衡。

核技巧

核技巧（Kernel Trick）是将原始数据映射到一个更高维的空间，使得在这个高维空间中数据变得线性可分。常见的核函数有：
- 线性核： $K(\mathbf{x}_i, \mathbf{x}_j) = \mathbf{x}_i \cdot \mathbf{x}_j$
- 多项式核： $K(\mathbf{x}_i, \mathbf{x}_j) = (\mathbf{x}_i \cdot \mathbf{x}_j + 1)^d$
- 高斯核（RBF）： $K(\mathbf{x}_i, \mathbf{x}_j) = \exp(-\gamma ||\mathbf{x}_i - \mathbf{x}_j||^2)$
使用核函数后，SVM的优化问题就变成了： $\min \frac{1}{2} \sum_{i,j} \alpha_i \alpha_j y_i y_j K(\mathbf{x}_i, \mathbf{x}_j) - \sum_i \alpha_i$

使得 $\sum_i \alpha_i y_i = 0$ 且 $\alpha_i \geq 0$ ，这里， $\alpha_i$ 是拉格朗日乘子。核函数 $K(\mathbf{x}_i, \mathbf{x}_j)$ 替代了原始的内积 $\mathbf{x}_i \cdot \mathbf{x}_j$ ，使得优化问题能够在高维空间中进行求解。

支持向量机通过找到一个最佳的超平面来分类数据，在线性可分的情况下，通过最大化间隔来确定最佳的超平面。在非线性可分的情况下，通过引入软间隔和核技巧，使得SVM可以处理更复杂的数据集。最终的优化问题可以通过求解一个二次规划问题来完成。

个人技术分享