Powered by GitBook

情感分析问题介绍

语料库一般比较容易获取，比如可以用豆瓣上的影评或书评。但要注意语料库中的奇异值。

情感分析：正面、负面
- 更细粒度：兴奋、悲伤等

有监督学习

样本 -> 分类变量：标签(label)
自变量 -> 因变量
回归问题: 标签(因变量)是实数，比如说房价、预期寿命
分类问题: 标签(因变量)是有限集合，比如情感分析
- 标签集合要预先定义好
更多例子：
- 句子的主题
- 病句判断

科学研究与有监督学习

数据、经验 -> 模型
比如开普勒定律，从观测到的行星数据中提炼出的模型
机器学习本质上是一样的：从数据中找出模型。可以说是机器对数据的理解。这个模型人类不一定会理解，比如Alphago。包括神经网络这一整套方法，可解释性不强。
情感分析的模型，人类相对可以理解

有监督学习的本质

训练数据 -> 限定集合里的最优模型。为什么是限定模型？需要符合人脑的认知结构。如果不限定f的集合的话，对任何数据集来说最优的模型就是数据集本身。也就是过拟合，泛化能力很差。

f(x) = y
对f的限定和找最优f的方法，就是不同的机器学习流派

Change log

2017.10.21 创建

results matching ""

No results matching ""