GANによるダンス動画生成「Everybody Dance Now」が凄まじい

   

2018年の8月22日に「Everybody Dance Now」という衝撃的な論文が公開されました。原文はこちら
上の動画がその結果です。ただのCGか、と思われるかもしれませんが、その作り方が大多数の皆さんがイメージするCGと全く違います。
GAN(Generative Adversarial Networks:敵対的生成ネットワーク)というもので生成しており、今現在いわゆるAIと呼ばれるもので作り出しています。
この技術は4年くらい前に考案されたもので、常軌を逸するスピードで進化しており、全貌を把握するのが困難な状態です。

"敵対的"と付くと何か危険なもののように聞こえますが、怖くはないです。
ジェネレーター(生成者)とディスクリミネーター(識別者)が競い合い(敵対し)ながら成長していくニューラルネットワークなので、敵対的生成ネットワークという名前が付いています。

ジェネレーターが生成したデータが本物かどうかをディスクリミネーターが判定します。ディスクリミネーターには偶に本物のデータを見せます。
ジェネレーターが生成したデータと本物のデータを、ディスクリミネータが正しく見分けられなくなった時がジェネレータの完成です。
ジェネレーターが本物と見分けの付かないデータを生成出来ているからです。
実際にはそんなに上手くいくわけもなく、ジェネレータが偏ったデータしか生成しなくなることが多いです(モード崩壊と呼ばれる)。

これが現在における"AI"とか"人工知能"と呼ばれるものの最先端の一つなのですが、この延長線上にシンギュラリティなど起こらないという主張がある理由がコレです。正直、マ●コミさんが煽ってるだけですが、そのおかげでこのジャンルへのリソース投入も進むので有り難くはあります・・・。

起こるのは、人による悪用ですね。

先週、Focal Lossについて書きましたが、あのノリで今回の論文を説明し始めると紙面が尽きるので概要だけざっくりと纏めます。

図の引用元はarXivの論文です。

Everybody Dance Now
Caroline Chan, Shiry Ginosar, Tinghui Zhou, Alexei A.Efros@UC Barkeley

まずFig. 2. のようにHuman Pose Estimation(人間の姿勢推定)が出来ることが大前提としてあります。
これは畳み込みニューラルネットワークによる回帰問題として解けます。
特筆すべき事は、Appendixにあるように、Global Pose Normalizationをしている事です。
下のFig. 3.のTrainingの冒頭でPyを入力してxを回帰しますが、そのxの値を正規化してジェネレータGに入力します。
後のTransferの出力x'にも同様の正規化を行っています。

 

Fig. 3.のTrainingがGANの学習方法です。
Gがジェネレーターですが、ジェネレータは姿勢の情報xを元にG(x)の人間画像を生成します。
ディスクリミネーターは3つあり、yから推定した姿勢情報x、ジェネレーターの生成した人間画像G(x)、姿勢推定に使ったオリジナルの人間画像yの3つの情報を組み合わせて構成されています。
xG(x)G(x)yyxの3種ですね。

 

Fig. 4.ではTemporal smoothingという手法の説明をしています。
時間をtとして、時間tに推定した姿勢xtt-1に生成した画像G(xt-1)からジェネレータを使って画像G(xt)を生成します。
ディスクリミネータがオリジナル画像y(t-1)yt、推定した姿勢x(t-1)とxt、生成した画像G(xt-1)G(xt)の時間干渉性が有れば(temporally coherent)本物、無ければ(temporally incoherent)偽物と判定します。

 

仕上げに生成された画像G(x)の顔部分に対して、顔のみを生成するGANをかけます。

 

・・・とまあ、モリモリな内容です。。
併記されている式を熟読するほうが理解は深まるかと思いますので後日精読します。
姿勢推定の精度が生成画像の品質に直結するので、踊りのソースも、生成元の画像も、それに有利な物を使わなくてはなりません。
9月1日の17:00時点で既に被引用回数1件となっており、この業界の熾烈さが垣間見れます(´д`;)
実際のネットワークの詳細は不明のため、現状だと再現性の確認は取れませんが・・・読む限りだと上手く行くだろうなあと。
これは上手く踊れない人を踊っているかのように見せるために使われていますが、悪用する方法はいくらでも思いつくので使う人間次第ですね。
実施に必要な前提知識が多くやれる人は限られるので、アイコラみたいな気軽さは無いですが。

重要なアイデアが散りばめられているので、理解の範疇で纏めておきます。

amazon

 - 機械学習 , ,