情感分析问题介绍
语料库一般比较容易获取,比如可以用豆瓣上的影评或书评。但要注意语料库中的奇异值。
- 情感分析:正面、负面
- 更细粒度:兴奋、悲伤等
有监督学习
- 样本 -> 分类变量:标签(label)
- 自变量 -> 因变量
- 回归问题: 标签(因变量)是实数,比如说房价、预期寿命
分类问题: 标签(因变量)是有限集合,比如情感分析
- 标签集合要预先定义好
更多例子:
- 句子的主题
- 病句判断
科学研究与有监督学习
- 数据、经验 -> 模型
- 比如开普勒定律,从观测到的行星数据中提炼出的模型
- 机器学习本质上是一样的:从数据中找出模型。可以说是机器对数据的理解。这个模型人类不一定会理解,比如Alphago。包括神经网络这一整套方法,可解释性不强。
- 情感分析的模型,人类相对可以理解
有监督学习的本质
训练数据 -> 限定集合里的最优模型。 为什么是限定模型?需要符合人脑的认知结构。如果不限定f的集合的话,对任何数据集来说最优的模型就是数据集本身。也就是过拟合,泛化能力很差。
- f(x) = y
- 对f的限定和找最优f的方法,就是不同的机器学习流派
Change log
- 2017.10.21 创建