またーり くおんつ ノート

お勉強した初歩的なことを書くチラシの裏

Hash Embeddings for Efficient Word Representationsを読んだ

なんか最近はディープ協会がいろんな意味で話題ですね. (にっこり

今回NIPS2本目はHash Embeddings for Efficient Word Representationsを読んだ.

[1709.03933] Hash Embeddings for Efficient Word Representations

最近NLPサイドの応用に興味があったので、タイトル見てなんか気になったので.

モデル

word embeddingをやると大変なのでfeature hashingを参考にhash関数で変換する.

辞書がなくてもOKなところが良い.

特徴としてはhash関数を複数用意してそれらの加重平均として表現するのがポイント.
この加重平均する時の重みも学習する.

f:id:aki-don:20171006085238p:plain

hashの時にありがちなhashの衝突を確率をかなり減らせる.

結果

相変わらず結果を貼り付けただけだが.

f:id:aki-don:20171006085248p:plain

辞書なし版で十分な精度を出している. すごい.

f:id:aki-don:20171006085329p:plain

他のChar-level CNNとの比較などもやってくれてる.
Char-level CNNはこっちでやった.

aki-don.hatenadiary.com

こちらの比較でも遜色ないように見える. 使ってみたい.

お気持ち

A hash embedding is an efficient hybrid between a standard embedding and an embedding created using feature hashing, i.e. a hash embedding has all of the advantages of the methods described above, but none of the disadvantages:

とあって語感が強い.

ぜひ試してみたいところ.