またーり くおんつ ノート

お勉強した初歩的なことを書くチラシの裏

Convolutional Neural Networks for Text Categorization: Shallow Word-level vs. Deep Character-levelを読んだ

子育てにより疲弊したが、朝活を再開するぞい.

Hash embeddingに引用されてた次を読んだ.

[1609.00718] Convolutional Neural Networks for Text Categorization: Shallow Word-level vs. Deep Character-level

結局Char-levelとWord-levelってあんまり同じデータセットで比較しきれてないけど、 どっちが強いのというお話.

結論

Word-levelが勝ったよ. (データサイズが大きくても小さくても)

f:id:aki-don:20171026084533p:plain

概要

word level CNNとchar level CNNを比較.
char level CNNとしては以下を引用.

[1606.01781] Very Deep Convolutional Networks for Text Classification

こいつは明日読む.

word levelについてはtv-embeddingというものを使用している.

[1504.01255] Semi-supervised Convolutional Neural Networks for Text Categorization via Region Embedding

こいつもそのうち眺めたい.

主張

やはりchar levelのケースは学習時間が非常に重いのがネック.

そのため、word levelのほうがすっごい早いし、誤識別率も低くていいよ!という主張.
ただパラメータ数はこちらの方が多く、ストレージがキツイときは欠点になるかも、という話.

埋め込みのtv-embeddingについても埋め込み次元を色々変えて調査しているが、 どの次元でも遜色ない結果.

f:id:aki-don:20171026085609p:plain

所感

まぁ辞書とかで埋め込み表現使ったほうが現状やっぱり強いということになるんであろう.
あんまり比較論文は必ずしも多くなかったり、書いてる論文によってエラー率もまちまちだったりするから、参考になった.