Character-Aware Neural Language Modelsを読んだ
結論、20minで読むのはきつかった.
word embeddingいらないシリーズとして、今日はこちらを読んだ.
2015年と少し古いし評価は知らない.
[1508.06615] Character-Aware Neural Language Models
問題設定
とりあえず発射台は文字レベルとしてLanguage modelを構築している.
Language modelということで文章の次の単語を予測してperplexityでモデルを評価.
個人的には言語モデルそのものにはそれほど詳しくないです.
評価のデータセットは英語以外もチェコとかアラビア語とかいろいろやってる
結論
なんか微妙.
当時の精度としては最高精度だけどパラメータ減ってるよ!って奴.
パラメータ減った!って奴、精度が思ったほど出なかった時でも公開したいときの言い訳みたいになってる印象が(偏見
モデル
ネットワーク構造は以下の感じ. 結構いろいろブチ込まれている.
- 文字レベルでインプット
- CNNで1D-max pooling
- そこからHighway Networkに入れる
- そのoutputをLSTMに入れて予測
お気持ち
うーん、この精度. 一応他の言語だとあんまりやられてないせいか、載せてある精度は悪くない.
highway netに入れたのは、もし入れなかったら精度が悪かったらしい.
今だと他にも色々やりようがあるのだろう.
もう時間が来たのでこいつはここまで.
他にも分散表現とか解釈しようとしてるけど、あんまりビビッとくるものが見つけられなかったのでおしまい.