分类问题和逻辑回归
回到情感分析问题,用线性回归实现分类是可以的:
对语料中每个单词,在某个句子中如果出现(x=1),没有出现(x=0);加权求和。看结果更靠近1(正面)还是0(负面)
线性回归实现分类存在的问题: 线性回归拟合的是实数值,没办法保证得到的值在0-1之间
- 结果很容易受点的分布的的影响
- 不能保证y的最佳取值固定在0.5(决策点),导致模型使用很麻烦,需要每次查看y的最佳是什么
希望的方式:当x超过(或小于)一定阈值的时候,y值是1或者0;超过(或小于)多少对y值影响不应该太大
逻辑回归
对线性回归进行改造,达到的效果:
当超过一定阈值的时候,y值对x的变化不敏感。符合我们对分类问题的理解。
Sigmoid函数
$sigmoid(x) := \frac{1}{1 + e^{-x}}$
$z = w_1x_1 + w_2x_2 + ... + b$
逻辑回归公式:
$sigmoid(x) := \frac{1}{1 + e^{w_1x_1 + w_2x_2 + ... + b}}$
- 将取值压缩在 0-1之间;
- 在取值到一定范围后,y值变化很小,即导数很小
- 当$z$的部分等于0的时候,y值为0.5;
经过改造后同样是对w,b求导 通过链式求导
交叉熵
除了求导不同外,逻辑回归和线性回归在计算损失函数时也有所不同。
Change log
2017.11.4 创建