Exploring the Limits of Language Modelingを読んだ
Google Brainが2016年に出してた下の論文を読んだ.
読んでたら出勤まであと10分くらいしかないので、そのうち追記するかも. (しなさそう...
[1602.02410] Exploring the Limits of Language Modeling
昨日までに読んでたのはむしろこれを読むために読んでた.
特に昨日のペーパーはかなり前提にしている.
やっていること
- 巨大なデータセット1B word benchmark data setにて最近の手法を統一的に試す.
- 特にword embeddingをChar-levelに置き換えるところをinput/outputそれぞれで試している.
- 結局今回の結果で良かったのは(c)の入り口をChar-levelにしているタイプだったようだ
(b)で上手くいってほしかったみたいではある. - word embeddingに変わるCNN softmaxを提案している
精度自体はやや下がるがかなりパラメータ数が減って学習もしやすいようだ - perplexityが当時大幅な改善(51.3 -> 30.0)
- アンサンブルのものについても試している(perplexity 23.7)
- 学習時間はTesla K40 32枚でperplexityが2時間で45、5日で35、10日で32.5で3週間で30らしいw
3週間とかツラミ
所感
ペーパーの要所要所から情報をshareしてやっていきたいという感じが見て取れる.
2016年より前の手法が結構整理されている印象なのでもう少し精読してもいいかな、と思う.
とりあえずこの時点では巨大なデータセットへの文字レベルのインプットはかなり有効性が示されているのかなと感じる.
(違ってたら誰か教えて.)
Importance samplingのくだりとかは深層学習のNLP赤本(出た!本)に載ってたやつと同じなのかな? 浅くしか読めなかったのでそのあたり実験するときは読み直したい.