贝叶斯分类器
用概率的思想建模。把建模的句子定义为条件概率。看S子空间里y等于某种情感的概率。任何一个句子,情绪不是绝对的,有的是一个情绪的分布。取概率最大的分布。
P(y=emotion|S) = P(y|w1,w2,w3,...,wn)
f(S) = y -> arg max P(y|S)
P(y|S) = P(y,S) / P(S)
= P(S|y) * P(y) / P(S)
- 不需要真正去计算分母 P(S)
- 不同的emotion P(S)是一样的
- P(y)是情绪的先验概率,只看不同情绪在和整体里的分布
训练数据的概率如何和使用模型数据的概率有很大差异,模型是有问题的。P(y)会有很严重的偏差(bias). 这个问题是个机器学习通用问题,不仅仅是贝叶斯分类器 - 训练数据和应用场景差异过大,模型基本上是失败的。
- P(S|y) = P(w1,w2,...,wn|y=emotion)
≈ P(w1|y) * P(w2|y) ... P(wn|y)
假设各个词之间是独立的。因此叫做Naive Bayes 朴素贝叶斯
Change log
- 2017.10.21 创建
- 2017.10.23 增加内容