情感分析问题介绍

语料库一般比较容易获取,比如可以用豆瓣上的影评或书评。但要注意语料库中的奇异值。

  • 情感分析:正面、负面
    • 更细粒度:兴奋、悲伤等

有监督学习

  • 样本 -> 分类变量:标签(label)
  • 自变量 -> 因变量
  • 回归问题: 标签(因变量)是实数,比如说房价、预期寿命
  • 分类问题: 标签(因变量)是有限集合,比如情感分析

    • 标签集合要预先定义好
  • 更多例子:

    • 句子的主题
    • 病句判断

科学研究与有监督学习

  • 数据、经验 -> 模型
  • 比如开普勒定律,从观测到的行星数据中提炼出的模型
  • 机器学习本质上是一样的:从数据中找出模型。可以说是机器对数据的理解。这个模型人类不一定会理解,比如Alphago。包括神经网络这一整套方法,可解释性不强。
  • 情感分析的模型,人类相对可以理解

有监督学习的本质

训练数据 -> 限定集合里的最优模型。 为什么是限定模型?需要符合人脑的认知结构。如果不限定f的集合的话,对任何数据集来说最优的模型就是数据集本身。也就是过拟合,泛化能力很差。

  • f(x) = y
  • 对f的限定和找最优f的方法,就是不同的机器学习流派

Change log

  • 2017.10.21 创建

results matching ""

    No results matching ""