Softmax

Softmax + Cross entropy

  • Sigmoid + CE
  • 2-class Softmax + CE, 需要有完整的概率分布(a, 1-a)
  • Softmax + CE

优化Softmax:降低 k 和 V

  • 输出节点多的Softmax在NLP中应用广泛
  • 降低 k: 深度 vs 宽带,和数据有关, k是最后一层的宽度
  • 降低 V: 字级别模型
    • 纯字级别:对应的context要拉长,k也要增大
    • 字词组合:高频词用词级别,低频变成字级别

优化Softmax: Hierarchical Softmax

霍夫曼编码, 期望长度最小并能区分每个字符 转化成二分类问题 目前tensorflow不支持

  • 改进训练,没法改进“生成”
  • 在Google word2vec里使用

优化Softmax: Noise-constrative estimation(NCE)

  • 对负例进行采样,转化为多个二分类问题
    • k个负样本,k+1个二分类问题
  • 理论上,实质损失函数和Softmax不一样了
  • Mnih and Teh (2015), 表现和softmax接近,提速45倍

Change log

  • 2017.12.03 创建
  • 2017.12.22 增加内容

results matching ""

    No results matching ""