またーり くおんつ ノート

お勉強した初歩的なことを書くチラシの裏

Exploring the Limits of Language Modelingを読んだ

Google Brainが2016年に出してた下の論文を読んだ.
読んでたら出勤まであと10分くらいしかないので、そのうち追記するかも. (しなさそう...

[1602.02410] Exploring the Limits of Language Modeling

昨日までに読んでたのはむしろこれを読むために読んでた.
特に昨日のペーパーはかなり前提にしている.

aki-don.hatenadiary.com

やっていること

  • 巨大なデータセット1B word benchmark data setにて最近の手法を統一的に試す.
  • 特にword embeddingをChar-levelに置き換えるところをinput/outputそれぞれで試している.

f:id:aki-don:20170929085607p:plain

  • 結局今回の結果で良かったのは(c)の入り口をChar-levelにしているタイプだったようだ
    (b)で上手くいってほしかったみたいではある.
  • word embeddingに変わるCNN softmaxを提案している
    精度自体はやや下がるがかなりパラメータ数が減って学習もしやすいようだ
  • perplexityが当時大幅な改善(51.3 -> 30.0)

f:id:aki-don:20170929090727p:plain

  • アンサンブルのものについても試している(perplexity 23.7)
  • 学習時間はTesla K40 32枚でperplexityが2時間で45、5日で35、10日で32.5で3週間で30らしいw
    3週間とかツラミ

所感

ペーパーの要所要所から情報をshareしてやっていきたいという感じが見て取れる.
2016年より前の手法が結構整理されている印象なのでもう少し精読してもいいかな、と思う.

とりあえずこの時点では巨大なデータセットへの文字レベルのインプットはかなり有効性が示されているのかなと感じる.
(違ってたら誰か教えて.)

Importance samplingのくだりとかは深層学習のNLP赤本(出た!本)に載ってたやつと同じなのかな? 浅くしか読めなかったのでそのあたり実験するときは読み直したい.