Hash Embeddings for Efficient Word Representationsを読んだ
なんか最近はディープ協会がいろんな意味で話題ですね. (にっこり
今回NIPS2本目はHash Embeddings for Efficient Word Representationsを読んだ.
[1709.03933] Hash Embeddings for Efficient Word Representations
最近NLPサイドの応用に興味があったので、タイトル見てなんか気になったので.
モデル
word embeddingをやると大変なのでfeature hashingを参考にhash関数で変換する.
辞書がなくてもOKなところが良い.
特徴としてはhash関数を複数用意してそれらの加重平均として表現するのがポイント.
この加重平均する時の重みも学習する.
hashの時にありがちなhashの衝突を確率をかなり減らせる.
結果
相変わらず結果を貼り付けただけだが.
辞書なし版で十分な精度を出している. すごい.
他のChar-level CNNとの比較などもやってくれてる.
Char-level CNNはこっちでやった.
こちらの比較でも遜色ないように見える. 使ってみたい.
お気持ち
A hash embedding is an efficient hybrid between a standard embedding and an embedding created using feature hashing, i.e. a hash embedding has all of the advantages of the methods described above, but none of the disadvantages:
とあって語感が強い.
ぜひ試してみたいところ.