またーり くおんつ ノート

お勉強した初歩的なことを書くチラシの裏

Predictive State Recurrent Neural Networksを読んだ

NIPS 4本目.

今日もタイトルに惹かれて読んでみた.

[1705.09353] Predictive State Recurrent Neural Networks

概要

状態空間モデルをRNN系に拡張したというもの.
その中でPSRNNというLayerを提案して、多層構造の学習手法についても提案.

LSTMやGRU対比PTBやMotionのデータセットでOutperformした.

雰囲気

雰囲気のイメージ図はこんな感じだけど、数式無いとなんの説明にもなってないな.
(数式あると説明になるとは言っていない. てかすごい分かりにくかった.)

f:id:aki-don:20171102085933p:plain

Factorized PSRNNも提案している.
BPTTで出来るのがウリっぽい?けど普通の方が精度がいいらしくて、うーん...

f:id:aki-don:20171102090504p:plain

Penn Tree Bankに対して適応してみた例.
確かに実験としてはいい結果に見える.

f:id:aki-don:20171102090203p:plain

OpenAIのSwimmerやUCIリポジトリのHandwritingに対しての実験もしている.
良好な結果.

f:id:aki-don:20171102090354p:plain

所感

確かに実験としてはいい結果が出てるけど、追試してみないと何ともという感じ.

状態空間モデルマニアにはたまらないかもしれん.

著者実装公開してくれないかな.
(軽くググッたけど見つからず...)

Deep Learning for Precipitation Nowcastingを読んだ

NIPS 2017 3本目(だっけ?).
脱線が過ぎたけど、また戻ってきた.

今日はなんとなくタイトルで目を引いたこいつ.

[1706.03458] Deep Learning for Precipitation Nowcasting: A Benchmark and A New Model

nowcasting的なことをディープでやりたいようだ.

外観

  • RNNでnowcastをやりたい
  • 位置の2D情報をもとに
  • 比較のために新しいベンチマークとなるデータセットを用意したよ
    • MovingMNIST++ と香港の降雨情報(ゲリラ豪雨当てたいようだ)
  • 考えたTrajGRUが従来の手法(ConvLSTMや2D CNN, 3D CNN)を上回った
    • 従来手法であるoptical flowも上回ってるらしい
  • videoにも使えると思うから今後やりたいらしい

雰囲気

これはいつものRNN系で時系列データを予測する枠組み.

f:id:aki-don:20171101085547p:plain

考案したTrajGRUだとrecurrent connectionが動的に決定されるところに利点がある.
これのおかげで降雨の地点が変わっていくのも対応できるのだとか.

f:id:aki-don:20171101085605p:plain

モデル

従来のConvGRU

f:id:aki-don:20171101090505p:plain

提案手法のTrajGRU

f:id:aki-don:20171101090521p:plain

2Dの位置情報をもとにwarp関数を経由してるあたりが変更点.
そのうち実装を公開すると書いてあったので、あとで調べる.

所感

てかMovingMNISTとかあるのかw

今回は動く速度が一定ではないMovingMNIST++を作ったらしい.
結構シュール.

f:id:aki-don:20171101085532p:plain

Deep Pyramid Convolutional Neural Networks for Text Categorizationを読んだ

先週末見つけたテキスト分類に関する以下のペーパーを読む.

Deep Pyramid Convolutional Neural Networks for Text Categorization

この人達、ずっとこの分野やってんな.
そしてBaiduからTencentにうつったりしてて、中国勢の勢いを感じる.

あとFGOでチェイテ城の上にピラミッド刺さってるやつ攻略している都合、 なんか近親感が湧く.

概要

この人達が以前やった研究から深い文字レベルCNNより浅い単語レベルCNNの方が パフォーマンスが良いことが言われてるけど、頑張って単語レベルCNNを深くしてみた.
というお話.

poolingをしていきながらdownsamplingしていくので、 ピラミッド形状になっていることからDeep Pyramid Convolutional Neural Networks (DPCNN)と呼ぶことにしたようだ.

構造は以下のような感じ.

f:id:aki-don:20171030085907p:plain

結果

強い(小並感)

f:id:aki-don:20171030090044p:plain

ポエム

結構いろんな実験もしていて、ピラミッド型にしないタイプや、 埋め込み層の種類についても比較していて、こちら参考になる.
だめだったケース載せてくれるのは非常にありがたい.

ピラミッド型かどうかなど構造に関する比較.

f:id:aki-don:20171030090408p:plain

埋め込み層の種類の比較.

f:id:aki-don:20171030090113p:plain

実務上だとw2vでもいいような気がした.

実装もそこまで難しくなさそうなので、使ってみたい.
(tv-embeddingはまた調べないとな...)