机器学习笔记(5)：Classification

与其它的机器学习问题相同，分类问题的本质也是去寻找一个模型（function），它可以接收一个特征向量，然后输出一个类别。

从表面上看，分类问题与回归问题十分类似，那么可不可以用处理回归问题的思想去处理分类问题呢？

比如一个3分类问题，我把模型的输出标签分别设置为1、2、3。在训练时，如果输入的真实类别为1，那么我就训练使模型的输出往1靠拢，其它的也是如此。然后在测试时，判断模型的输出与哪一个类别值（1，2，3）接近，最接近的就是输入的类别。

看上去似乎很合理，但是这样处理其实会存在两个问题：

对于右下图，当输入数据位于图中的右下角区域时，模型的输出会远远大于1。那么在训练时，为了减少训练误差，就会使模型往右下角偏移，如下图的紫色直线。 显然，紫色分类器的分类效果会比绿色分类器差；

在这里插入图片描述

对于多分类问题，使用1、2、3来表示类别，其实已经在潜在的暗示：相比于类别1和类别3，类别1与类别2更加接近。但事实上，这种暗示往往是没有道理的。

综上所述，我们不能用处理回归问题的思想来处理分类问题。

那么应该如何处理分类问题呢？下面会介绍一些方法。

1.概率生成模型（Probabilistic Generative Model，PGM）

PGM的核心算法就是贝叶斯公式，比如一个二分类问题，类别分别为 $C_1,C_2)$ ，输入向量为x，则PGM的输出可以写成以下形式：

P(C_1|x)=\frac{P(x|C_1)P(C_1)}{P(x|C_1)P(C_1)+P(x|C_2)P(C_2)} \tag1

若输出大于0.5时，则输入x被分为

C_1

，反之则被分为

C_2

。也就是说，

P(C_1|x)=0.5

就是PGM产生的区分两个类别的boundary。

那么具体 $P(C_1|x)$ 应该如何计算呢？

关于式(1)，我们需要计算两个部分，分别为 $P(C_1),P(x|C_1)$ 。前者就是所谓的先验概率（Prior），后者就是所谓的似然值（Likelihood）。这两个值都需要通过训练数据来进行大概的估计。

1.1.Prior

在这里插入图片描述

先验概率的计算比较简单。简单来说，就是分别计算训练集中每一个类别出现的频率。这里就不再赘述。

1.2.Likelihood

似然值的计算相对比较复杂。简单的说，计算似然值需要我们先确定数据集的概率分布形式；然后根据训练集，对该概率分布的参数进行估计。这也是为什么我们需要假设训练集和测试集是独立同分布的原因，否者模型的预测能力就会很不准确。

通常，我们会假设数据是满足高斯分布的。当然，也可以假设数据是符合其它分布的，这并没有什么限制。只要我们假设的概率分布与实际情况越符合，那么最后生成的模型的预测能力就会越精确。

这里我们假设数据是满足高斯分布的，多维高斯分布的函数形式如下：

f_{\mu,\Sigma}(x)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}} \exp\{ -\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu) \} \tag2

上式中，输入是一个n维的特征向量

x=(x_1,...,x_n)^T

，

\mu

是也是一个n维的向量，而

\Sigma

则是一个n维的矩阵。

显然，上式的高斯分布含有的未知参数就是 $(\mu,\Sigma)$ 。前者表示概率分布的均值，后者表示概率分布的协方差矩阵。由此，计算似然值的问题就变成了参数 $(\mu,\Sigma)$ 的估计问题。

关于似然函数的参数估计，一个常用的方法就是**极大似然估计**。简单来说，就是找到一组可以使得训练数据集中的所有数据出现的概率最大的参数 $(\mu,\Sigma)$ 。如下图的两个红色闭合曲线分别代表了两个具有不同 $(\mu,\Sigma)$ 的高斯分布，显然相较于右侧的高斯分布，左侧的高斯分布可以使得训练集的出现概率更高。