贝叶斯分类器

用概率的思想建模。把建模的句子定义为条件概率。看S子空间里y等于某种情感的概率。任何一个句子,情绪不是绝对的,有的是一个情绪的分布。取概率最大的分布。

P(y=emotion|S) = P(y|w1,w2,w3,...,wn)
f(S) = y -> arg max P(y|S)
P(y|S) = P(y,S) / P(S)
       = P(S|y) * P(y) / P(S)
  1. 不需要真正去计算分母 P(S)
  2. 不同的emotion P(S)是一样的
  3. P(y)是情绪的先验概率,只看不同情绪在和整体里的分布

    训练数据的概率如何和使用模型数据的概率有很大差异,模型是有问题的。P(y)会有很严重的偏差(bias). 这个问题是个机器学习通用问题,不仅仅是贝叶斯分类器 - 训练数据和应用场景差异过大,模型基本上是失败的。

  4. P(S|y) = P(w1,w2,...,wn|y=emotion)
       ≈ P(w1|y) * P(w2|y) ... P(wn|y)
    

    假设各个词之间是独立的。因此叫做Naive Bayes 朴素贝叶斯

Change log

  • 2017.10.21 创建
  • 2017.10.23 增加内容

results matching ""

    No results matching ""