Softmax
Softmax + Cross entropy
- Sigmoid + CE
- 2-class Softmax + CE, 需要有完整的概率分布(a, 1-a)
- Softmax + CE
优化Softmax:降低 k 和 V
- 输出节点多的Softmax在NLP中应用广泛
- 降低 k: 深度 vs 宽带,和数据有关, k是最后一层的宽度
- 降低 V: 字级别模型
- 纯字级别:对应的context要拉长,k也要增大
- 字词组合:高频词用词级别,低频变成字级别
优化Softmax: Hierarchical Softmax
霍夫曼编码, 期望长度最小并能区分每个字符 转化成二分类问题 目前tensorflow不支持
- 改进训练,没法改进“生成”
- 在Google word2vec里使用
优化Softmax: Noise-constrative estimation(NCE)
- 对负例进行采样,转化为多个二分类问题
- k个负样本,k+1个二分类问题
- 理论上,实质损失函数和Softmax不一样了
- Mnih and Teh (2015), 表现和softmax接近,提速45倍
Change log
- 2017.12.03 创建
- 2017.12.22 增加内容