Text Understanding from Scratchを読んだ
昨日の元になってるX. Zhang, Y.LeCunのText Understanding from Scratchを読んだ.
[1502.01710] Text Understanding from Scratch
概要
基本的には昨日のベースになっているので大体書いてあることは同じ.
むしろ何か違うこと書いてあるかな、くらいでざっと読んだ.
書いてなかったこと
少し実際上の細かいところが書いてあって、そこはためになった.
試したモデルそのものについての拡張は昨日のペーパーで追試した感じだ.
(こちらではChar-base以外のディープは比較していない.)
- DBPediaやAmazon Reviewなど、一番小さいクラスデータに合わせて均等にランダムサンプルしている
- 入力は常に1024の固定長なのだが、データセットごとにデータの段階で制限してたり、長い部分は無視したりして試している.
- DBPedia(訓練データセット数:560,000)ではTesla K40で1 epochに5時間
- Amazon Review(訓練データセット数:3,000,000)ではTesla K40で1 epochに5日(!?)
感想文
Tesla K40というのに時代を感じるものの、これは結構つらみがある学習時間である.
実務上はデータ制約があるので非均衡データになりがちだが、
そのあたりの重み付けに価値があるかは未検証っぽい.
あとやはりインプットの固定長問題は悩ましい.
明日以降の違うペーパーも参考にしたい.