sparse-dense by FoYo: チンパンジーと人工知能（Deep Learning）による「じゃんけん」の理解

[追記：2017-9-17]チンパージと人間（または人工知能）とのじゃんけんについて追加しました。
　
　チンパンジーに「じゃんけん」のルールを理解させることに成功した（京都大学にて）とのニュースがありました。

http://www.kyoto-u.ac.jp/ja/research/research_results/2017/documents/170810_1/01.pdf
http://www.kyoto-u.ac.jp/ja/research/research_results/2017/170810_1.html
https://www.youtube.com/watch?v=5qqLKADacOE

　それならば、現在の人工知能（Deep Learnig、特にCNN（畳み込みニューラルネットワーク））にも同じことをやらせてみよう、というのが本稿の趣旨です。以下では、私の理解した京都大学での実験をもとにしました。（私の理解に誤りがあるかも知れません。その節はご指摘いただければ幸いです。）

■チンパンジーは何を学んだのか
　下図に、チンパンジーの手による「グー」「チョキ」「パー」があります。それぞれ1種類のみです。このうちの異なる２つを並べた画面をみて、どちらが勝ちかをチンパンジーに学ばせます。勝ちの方を正しく答えた（指を指した）場合に、餌をもらえます。

　そのような画面（左右入れ替えも含めて６種類の画面）を、１日に144回（3パタン×48回）学ぶ。それを約100日続けた結果、６種類のどの画面が出ても、正しく答える（指さす）ようになった。
　なお、この１セットの画像以外に、「手の甲とひらを変えた画像のセット」や「人間の手による画像のセット」でも、同様に学習できることが判明したとのこと。

■人工知能 CNN君による学習
　結論から言いましょう。CNN（畳み込み層３層＋α）では、チンパンジーが学習した６種類の画面に加えて、さらに１２種類の画面（合計１８種類の画面）を学習しました。これに６０エポックを要しました。その学習結果を使って、本来の６種の画面をテストした結果、すべてに対して正解を得ました。（十分に学習が済んでいれば当然そうなります。）下図が、その出力結果図です。ここでのCNNは、Keras on Tensorflowを使って構成しました。

（注）このCNNでは、18画面を学習用データとしました。そのうちの6画面をテスト用にしました。通常の場合は、学習用データをテスト用データは別々に用意しますが、チンパンジーの学習の仕方に合わせるため、このようにしました。

■簡単な考察

チンパンジーの学習では、学習完了までに、６種のうちのいずれかの１画面×140回×100日 = 14,000回画面を見た。
人工知能CNNでは、学習完了までに、18種類の画面×60回 = 1,080回画面を見た。
単純計算では、（かなり乱暴だが）CNNはチンパンジーよりも、14,000／1,080 = 13倍の効率で学習できたとも言える。
チンパンジーは、６種類の画面だけをひたすら学習した。
一方、CNNではこの６種類の画面だけでは、十分に学習することができなかった。以下のようにさらに１２種の（元の画像を左右に回転させるなどして得られた画像を編集した）画面を追加して学習することで上記の結果を得た。
すなわち、チンパンジーは少ない種類の画面を多くの反復回数をかけて学習した。一方のCNNは、（いくつかの変形を含む）多くの種類の画面を少ない反復回数で学習した。これは、CNNの重要な特性であろう。

■チンパンジーと人間の間のじゃんけん

　この京大の研究結果に基づいて、将来的には、チンパンジーと人間（または人工知能CNN君）がじゃんけんすることもありそうです。そこまでは検証できませんので、ここでは、CNN君が、下図のような、チンパンジーと人の手の組み合わせでも難無く学習できることを示しておきます。

　実際に学習した成果（CNN君による判定結果）を示します。チンパンジーの手だけの場合と比べて、特に難しいことではありませんでした。CNN君にとっては。

2017年9月16日土曜日

チンパンジーと人工知能（Deep Learning）による「じゃんけん」の理解

0 件のコメント:

コメントを投稿