Convolutional Neural Networks for Text Categorization: Shallow Word-level vs. Deep Character-levelを読んだ

子育てにより疲弊したが、朝活を再開するぞい.

Hash embeddingに引用されてた次を読んだ.

結局Char-levelとWord-levelってあんまり同じデータセットで比較しきれてないけど、どっちが強いのというお話.

結論

Word-levelが勝ったよ. (データサイズが大きくても小さくても)

word level CNNとchar level CNNを比較.
char level CNNとしては以下を引用.

こいつは明日読む.

word levelについてはtv-embeddingというものを使用している.

こいつもそのうち眺めたい.

やはりchar levelのケースは学習時間が非常に重いのがネック.

そのため、word levelのほうがすっごい早いし、誤識別率も低くていいよ！という主張.
ただパラメータ数はこちらの方が多く、ストレージがキツイときは欠点になるかも、という話.

埋め込みのtv-embeddingについても埋め込み次元を色々変えて調査しているが、どの次元でも遜色ない結果.

まぁ辞書とかで埋め込み表現使ったほうが現状やっぱり強いということになるんであろう.
あんまり比較論文は必ずしも多くなかったり、書いてる論文によってエラー率もまちまちだったりするから、参考になった.