またーり くおんつ ノート

お勉強した初歩的なことを書くチラシの裏

Text Understanding from Scratchを読んだ

昨日の元になってるX. Zhang, Y.LeCunのText Understanding from Scratchを読んだ.

[1502.01710] Text Understanding from Scratch

概要

基本的には昨日のベースになっているので大体書いてあることは同じ.

aki-don.hatenadiary.com

むしろ何か違うこと書いてあるかな、くらいでざっと読んだ.

書いてなかったこ

少し実際上の細かいところが書いてあって、そこはためになった.
試したモデルそのものについての拡張は昨日のペーパーで追試した感じだ.
(こちらではChar-base以外のディープは比較していない.)

  • DBPediaやAmazon Reviewなど、一番小さいクラスデータに合わせて均等にランダムサンプルしている

f:id:aki-don:20170927090023p:plain

  • 入力は常に1024の固定長なのだが、データセットごとにデータの段階で制限してたり、長い部分は無視したりして試している.
  • DBPedia(訓練データセット数:560,000)ではTesla K40で1 epochに5時間
  • Amazon Review(訓練データセット数:3,000,000)ではTesla K40で1 epochに5日(!?)

f:id:aki-don:20170927090039p:plain

感想文

Tesla K40というのに時代を感じるものの、これは結構つらみがある学習時間である.

実務上はデータ制約があるので非均衡データになりがちだが、
そのあたりの重み付けに価値があるかは未検証っぽい.

あとやはりインプットの固定長問題は悩ましい.
明日以降の違うペーパーも参考にしたい.