Very Deep Convolutional Networks for Text Classification を読んだ
読んだ. が、記事書く時間がない...
Facebook AI researchから出てるこいつ.
[1606.01781] Very Deep Convolutional Networks for Text Classification
結論
NLPの分類 or センチメント問題で画像認識ならってCNNのめちゃ深いの作ってみたよ.
やられてないのか、イマイチなのか発表当時はなかったけど、SOTAになったそうで.
層数やらPooling方法、Residual構造の有り無しを色々試しているが、
29層のMaxPooling系でResidual無しが良かった模様.
ただこれ以上深いものになるとResidual構造は効いてくるみたいだけど、
精度的にはOverfitしちゃってるぽい.
(昨日の論文で他の手法と比較されており、それを信じれば現状のSOTAではない.)
所感
色々試してくれてるので参考になる.
これを見てる中で昨日のペーパーの著者の最新論文がACL 2017で出てるのに気づいた.
Deep Pyramid Convolutional Neural Networks for Text Categorization
なんか数値がすげー強そうだぞ. 来週はこれからやるか...
Convolutional Neural Networks for Text Categorization: Shallow Word-level vs. Deep Character-levelを読んだ
子育てにより疲弊したが、朝活を再開するぞい.
Hash embeddingに引用されてた次を読んだ.
結局Char-levelとWord-levelってあんまり同じデータセットで比較しきれてないけど、 どっちが強いのというお話.
結論
Word-levelが勝ったよ. (データサイズが大きくても小さくても)
概要
word level CNNとchar level CNNを比較.
char level CNNとしては以下を引用.
[1606.01781] Very Deep Convolutional Networks for Text Classification
こいつは明日読む.
word levelについてはtv-embeddingというものを使用している.
こいつもそのうち眺めたい.
主張
やはりchar levelのケースは学習時間が非常に重いのがネック.
そのため、word levelのほうがすっごい早いし、誤識別率も低くていいよ!という主張.
ただパラメータ数はこちらの方が多く、ストレージがキツイときは欠点になるかも、という話.
埋め込みのtv-embeddingについても埋め込み次元を色々変えて調査しているが、 どの次元でも遜色ない結果.
所感
まぁ辞書とかで埋め込み表現使ったほうが現状やっぱり強いということになるんであろう.
あんまり比較論文は必ずしも多くなかったり、書いてる論文によってエラー率もまちまちだったりするから、参考になった.
Hash Embeddings for Efficient Word Representationsを読んだ
なんか最近はディープ協会がいろんな意味で話題ですね. (にっこり
今回NIPS2本目はHash Embeddings for Efficient Word Representationsを読んだ.
[1709.03933] Hash Embeddings for Efficient Word Representations
最近NLPサイドの応用に興味があったので、タイトル見てなんか気になったので.
モデル
word embeddingをやると大変なのでfeature hashingを参考にhash関数で変換する.
辞書がなくてもOKなところが良い.
特徴としてはhash関数を複数用意してそれらの加重平均として表現するのがポイント.
この加重平均する時の重みも学習する.
hashの時にありがちなhashの衝突を確率をかなり減らせる.
結果
相変わらず結果を貼り付けただけだが.
辞書なし版で十分な精度を出している. すごい.
他のChar-level CNNとの比較などもやってくれてる.
Char-level CNNはこっちでやった.
こちらの比較でも遜色ないように見える. 使ってみたい.
お気持ち
A hash embedding is an efficient hybrid between a standard embedding and an embedding created using feature hashing, i.e. a hash embedding has all of the advantages of the methods described above, but none of the disadvantages:
とあって語感が強い.
ぜひ試してみたいところ.