2018年11月30日金曜日

八木勲先生が、国際会議BESC2018でBest Paper Award受賞

 神奈川工科大学情報工学科の八木勲先生が、国際会議BESC2018でBest Paper Awardを受賞されたとのことです。たいへんおめでとうございます!
 受賞論文名などは下記に掲載されています。

 正確な受賞名は、Distinguished Research on Behavioral and Economic Computingとなっています。八木先生は、現在の情報工学科では数少ない、この分野の専門家として継続的に研究されてきました。当方は素人なので、論文内容はそのタイトルにあるMarket Liquidity(市場流動性)とAgent-based(エージェント指向)という用語からおぼろげながらに推測するしかありません。それでも、これは、現在の社会、経済情勢での課題解決に向けた遠大な研究テーマであるように思われます。今後のいっそうのご活躍を期待致します。

2018年11月22日木曜日

人工知能学会での招待講演と言えば...

本日(11/22)から、人工知能学会合同研究会2018が開催されました。
慶応大学矢上キャンパス2018/11/22〜23
https://www.ai-gakkai.or.jp/sigconf/

以下、ごくわずかな情報に過ぎませんが、ご参考になる点があれば幸いです。
私が聴講したのは、以下の招待講演1件だけです。他には何も参加しませんでした。



このような学会で、招待講演となれば、ずばり、これしかないでしょう!というタイトルでした。

岡野原 大輔 氏「深層学習の現在とこれから」
株式会社Preferred Networks 代表取締役副社長

(以下、当方の浅学ゆえに、不正確さや誤解が含まれているかも知れません。その前提でご覧いただければありがたいです。)

  • B2Fのマルチメディアルーム(恐らく数百席以上の座席)は超満員で立ち見もいた。
  • ディープラーニングの構成などに関する基本的な解説があった。
  • Preferred Networks社の開発した、あるいは関わった応用例が紹介された。
  • 小生(この記事の執筆者)は、10月のCEATEC Japan 2018の会場で、ファナックの「バラ積み(picking)ロボット」とトヨタのロボットを使った「お片付けロボット」を見学した。それは、当社で開発したディープラーニングによるものだった。
  • 技術的な目標としては、次の3段階が考えられるという。Step1:自社でデモを作って見学してもらう、Step2:CEATECのような大規模な会場で4日間連続運転で公開してデモする、Step3:実用に供する。多くは、まだStep2どまりだという。
  • Deep Learningが高度な画像認識などで驚異的な認識性能を示す場合が増えているが、実は、なぜこれだけ優れた結果がだせるのかは、未解明の部分が多いとのこと。
  • 当社では自動運転技術にも取り組んでいる。交差点で「ぶつからない車」のデモで有名になったものも手がけた。その際、教えていないある行動、すなわち、人間が思い付かなかった行動で衝突を避けた車が出現した。それは、実社会では御法度の、「交差点内でバックして避けた」であった。これを見ると、本当に自然に創発がなされたように感じられる。しかし、自動運転ではそのような危険性も孕んでいる。
  • 実用レベルのDeep Learningでは、典型例として、ひとつの学習あたり170万枚の画像を用意、NVIDIAの高性能GPU 512台を使って30時間などという膨大なコストをかけている。
  • 人間は、そんなに膨大なエネルギーを必要とせずに認識できているように思われる。DNAに織り込まれているものが効いているのか。例えば、幼児に(絵本で)象のイラストを1枚見せて教えた後に、動物園につれて行くと、すぐに、初めてみた象を指さして「ゾウさん」などと言う。
  • 今後のDeep Learningに求められるもののひとつに、「メタ学習」がある。例えば、ある種のものの認識に要した学習法(ネットワーク構造と重みの他、多数のハイパーパラメータに関する)があり、また別のものの認識のための学習法がある。そのような「学習の仕方」を学習することである。それによって、少ないデータから適切に学習を進められる途を得る。

2018年11月16日金曜日

丸一日、英語漬けになってみた

 英語がかなりできる人でも、ヒアリング&スピーキング能力をさらに高めたいと思っているようです。その思いは、多くの方々と共有できそうです。そこで、手軽に、ヒアリングができるようにと、下記の記事を書きました。

「英語ニュース ヒアリングアプリのカスタマイズ」
https://sparse-dense.blogspot.com/2018/11/blog-post_12.html

 ですが、これで繰り返し聞いて、その効果を高めるには何かが必要なはず。これと密接に関係するのですが、日本人の多くは、英文の単語一つづつを正確に発音しようとする傾向があるとのこと。私もその一人かも知れない。それだと逆に通じない。そこを打破して、ネイティブの発音(スピーキング)に近づける。それによって、ヒアリングもスッと自分の耳に入ってくる。英語らしい表現と瞬発力も必須。そんなことを目指した1日講座を受講してみました。

 「聞き取れる」ならば「話せる」と考える人も多いようですが、この講座はむしろ逆の立場のようです。すなわち、「ネイティブに近い音読を重ねる」ことにより「ネイティブ発音が耳に入ってくる」という方針のようでした。

「丸一日英語漬け」が終わり、丸の内オアゾを出て北口へ向かう
 
丸の内オアゾでその講座はありました。受講者の大半は、現役のビジネスマン、ビジネスウーマンのようです。彼ら彼女らに混じって丸一日、なんとか頑張って英語漬けになってきました。詳細はここには書けませんが、とても貴重な指導を受けることができました。This lecture taught me the tips of speaking and hearing. 一日だけとはいえ、一定のコツが掴めた気がしています。そして、この後に、上記の「英語ニュース ヒアリングアプリのカスタマイズ」で作ったソフトで、英語ニュースを聞けば、だいぶちがうのではないか。それは今後やってみることですが。

 ただし、この受講の効果も、訓練を続けないと次第に消滅してしまう。世の中厳しい。

2018年11月14日水曜日

再び、ソニーのNeural Network Console

 今回は、ソニーのNeural Network Consoleについてです。ちょうど1年前に、これを使って、人工知能でお菓子を認識するという記事を4つ書きました。お菓子の袋を振った音の認識が、こんなに楽にできるという雑誌の記事を見て追試したにすぎませんが。その一つは以下のものです。

(Neural Network Consoleを利用した当方の過去の記事)

 しかし、今回の記事は、このNeural Network Consoleの解説本が本日、新たに出版されたということに注目します。2冊の目の本ということですが、1冊目は、Windows単体のNeural Network Consoleを使って、画像認識(CNNによる)の例題が主に書かれていました。それに比べて、今回の2冊目は、クラウド版のNeural Network Consoleを使った解説です。しかし、Windodws単体版でも使い方は基本的に同じです。それよりも、今回の新版では、RNNを解説しています。時系列データの処理、自然言語処理が含まれています。これには、またグラッときます。Deep Learningへ入力するデータの準備についても解説があります。Tensorflow - Kerasもあり、MATLABもあり、あまり目移りするのも良くないですが。


 CNNでもRNNでも、本格的なディープラーニングをやろうとすれば、長時間演算となり、GPUが無いPCでは限界があります。しかし、あらたにGPU付きの高価なPCを買うのは躊躇します。買っても、そんなに使わないかもしれない。このジレンマ、なんとかならないか。

 その一つの答えが、クラウドでGPU付きのマシンをレンタルで使うことです。Amazon、Googleでもそれはやっています。しかし、私は、このソニーのクラウド版Neural Network Consoleがいいのではないかと思っています。というのは、それと同じ環境のWindows版が手元にあるわけですから、その上で徹底的に試行すればよい。そして、いよいよ、本格Deep Learning 決行となれば、そのデータなどをクラウド側へ移して実行すればよい。クラウド料金体系(CPU, GPU有無やProcessing Time従量課金)も明確ですから、その時だけクラウドにすれば良い。

 ということで、しばらく休止していた、Neural Network Consoleの利用を再開して、意味のあるAIアプリを開発する方向に向かう。そのような状況で、今回の新刊出版はとても参考になりそうです。

(注)クラウド版のNeural Network Consoleは、CPU合計10時間(GPU無し)、Work Space 10GB、Project 10個の範囲で無料となっています。それを越えて使う場合は、従量制で課金(GPU使用指定も可能、予算上限設定も可能)のオプションがあります。小生の場合、上記で示した「お菓子の袋を振った音の認識」の一連の試行で、すでに無料枠CPU約6時間を消費してしまいました!(1回当たり、CPU 30分前後の試行でしたが。)

2018年11月12日月曜日

英語ニュース ヒアリングアプリのカスタマイズ

 英語の資料や文献を読む機会は多い。一方、家にいるとほとんど英語のヒアリング、スピーキングになりません。普段から、英語ヒヤリングを向上させたいと思っている人は多いと思います。そのための手段や教材は無数にあるようですが、手軽にヒアリングでき、楽しめるサイトを、今頃になって見つけました。 JapanTimes社のhttp://st.japantimes.co.jp/news/ です。その中で例えば、「ガソリン車」を、gasolineではなくpetrolと言っているところがあったりするので、(米国よりも)やや英国風かなとも思いますが、その特徴を列挙してみます。

  • スマホからも、インターネットに接続していればいつでも聞ける。
  • 国内、海外の多様なニュースが盛りだくさんで、内容が洗練されている。
  • 音声で40秒前後と、短いのがよく、繰り返して聞く気になる。
  • ネイティブの男女の声で、妥協しないノーマルスピードで厳しいのが良い。
  • テキストもあり、聞き慣れない単語にカーソルを当てると和訳がポップアップ。
  • 的確な(Google翻訳ではない!)全和訳テキストもある。 

 以下の画面は、「ノーベル文学賞のカズオイシグロ氏がナイトに」のニュースです。

英語ニュース(音声・テキスト)視聴 オリジナル版
http://st.japantimes.co.jp/news/ より引用

 素晴らしい!これで十分と思って、少し使っていくうちに、やはり自分用にカスタマイズしたくなる点が出てきました。どのソフトもそういうもの。結論として、以下の画面のようなアプリにカスタマイズしました。これで何がいいのかを示します。

英語ニュース(音声・テキスト)視聴 自作版 Version1

  • あくまで、ヒアリングが目的なので、最新ニュースでなくてもよい。
  • 気に入った10件のニュースをダウンロードして、繰り返し聞くことに特化。
  • ひとつが短いので、何度も繰り返して聞くためのループ再生スイッチを設定。
  • ネット接続が不要で、広告や関連情報がなく、スッキリ集中できる。
  • オリジナル版よりも操作が少なく、すぐに所望の音声、テキスト へ行ける。
  • ヒアリング訓練が十分済んだら、また別の10件を設定できる。追加も可能。

 このようなカスタマイズですが、思い付いたら直ぐに作れないとやる気がしません。それに応えるのが、App Inventorなのです。もちろん、今回もこれで楽に作れました。以下に、そのデザイン画面とブロック(処理部)の全体を示します。



 この図からは分かりにくいのですが、ダウンロードした音声とテキストは適当な場所(Android端末内)に格納するようになっています。その内容を交換できるので汎用的。
 その後、さらに、以下のことを追加/改訂してVersion2に:

  • プログラムは全く変更せずに、ニュースを幾らでも追加できるようにした。(.txt、.mp3ファイルとも、sdcardに置くことにした。)
  • テキストの文字(英文、和文)の表示の拡大縮小を可能にした。
  • 実際に内容を充実させるため、英語のニュースを50個とエッセイ10個を登録した。
  • それらを、ランダムに選択して聞く機能を設けた。
英語ニュース(音声・テキスト)視聴 自作版 Version2

2018年11月9日金曜日

類似語検索:秋田-こまち-ザギトワ

 単語の「類似度」は、曖昧さを残した用語ですが、人間が感じる(考える)類似度と、コンピュータが自然言語処理などで扱う類似度は、似て非なるものがあるようです。しかし、ここでは、後者、すなわち、コンピュータでの処理だけを扱います。

 類似語は、その元となる辞書の内容に依存します。ここでは、前回記事の続きとして、「朝日新聞単語ベクトル」を辞書とした類似語検索を行います。近年の単語ベクトル化の方式は、「単語の意味は、周囲に出現する単語によって形成される」という分布仮説に基づいていることに注意します。単語のベクトル空間においては、意味的に類似の単語は、その距離が近くなっているはずです。以下に、「秋田」など単語の類似語検索例をいくつか検討します。

【例1】「岡山」→「桃太郎」を連想の場合、「秋田」から連想される「桃太郎」の類似語は?
【例2】「こまち」から「秋田」を連想の場合、「桃太郎」から連想される「秋田」の類似語は?
【例3】「ザギトワ」から「秋田」を連想の場合、「桃太郎」から連想される「秋田」の類似語は?
【例4】「秋田」を念頭に置いた場合、「桃太郎」から連想される「秋田」の類似語は?
【例5】「秋田」を念頭に置いた場合、「秋田」から連想される類似語は?




 この2例から、朝日新聞単語ベクトル空間において、「こまち...秋田」の関係が、「桃太郎...岡山」の関係と良く類似していることが分かります。それは、例1と例2での単語ベクトル空間のイメージ図からも分かります。それでは、次に、例2での「こまち」を「ザキトワ」に置き換えた類似語探索を行ってみます。「ザギトワ」は、人気のフィギュアスケーターであり、秋田犬を贈呈された記事が多数存在するからです。


 例3でも、「ザギトワが秋田」ならば、「桃太郎は岡山」の関係は保たれています。しかし、検索結果の「岡山」の確からしさ(類似度)は、やや失われているように見えます。「秋田」と共に出現する頻度は、「こまち」の方が「ザギトワ」よりも高いように思われます。次の例4は、秋田に関連するこれらの用語を削除した場合の類似語検索です。



 この例4では、「秋田」は単に場所を示す単語として貢献しているようです。「桃太郎から連想される秋田の類似語」は、「山形」という結果です。たしかに、山形にも、桃太郎伝説は存在していて、いろいろな資料もありました。最後の例5は、「桃太郎」も削除してしまい、単に、「秋田」の類似語を検索した場合です。



 
「秋田」と言えば、「大館」という結果は納得できます。もちろん、他にもたくさん、連想できる単語があるはずですが、この朝日新聞単語ベクトル空間では、そうなっているということです。
 以上の5例から、断定的なことは言えませんが、場合によっては、強力な「意味検索」が可能であり、いろいろと応用の可能性を秘めていると思えます。しかし、実際に真に有用な応用に結びつけるには、まだかなりの検討、研究を要するようにも感じます。    

 

2018年11月4日日曜日

囲碁のプロ棋士の間にもAIが...

 小生は、AI(人工知能)の社会での応用をできるだけ見聞きして、できればその技術の内容にも踏み込もうとしています。これまでにも、画像認識・理解、計測器の波形の予測、自然言語処理などでのAIを学んで来ました。まだまだ先は長い気がしますが、新しい知見に触れることで飽きがきません。

 今回は、囲碁や将棋の世界におけるAIです。ちょっとした話題に過ぎませんが、簡単なレポートをここに書きます。プロの棋士たちも今やAI囲碁、AI将棋で練習して、自分の戦略の幅を広げているという話を聞いています。その一例にあたるかも知れないことが本日ありました。

 NHK Eテレで「第66回 NHK杯テレビ囲碁トーナメント」を見ていました。山田規三生九段と結城聡九段という強豪の対決でした。持ち時間が限られているため、テンポが速いのが、見ている私にはうれしいです。

NHK Eテレ(2018-11-4)より引用

さて、解説は、高段者の男性と女流棋士だったのですが、男性解説者が、途中で、「この手は、AI囲碁の手ですね。」と言った場面がありました。下図にあるとおり、結城九段が置いた(4の九)黒石です。私自身は、この場面での、この手の善し悪しはあまり理解できませんでしたが、AI囲碁の影響が、プロ棋士の間にも浸透しているらしいという現実を垣間見た気がして、貴重な瞬間でした。(もちろん、結城九段ご自身が、そう考えられた手なのかどうかは、全く不明であることを、ここでお断りしておきます。)

序盤の一場面

 ところで、この手がその後、効いたのでしょうか。中盤になった盤面は以下のとおりです。序盤に比べて、この石のまわりに関しては、解説者の説明のとおり、黒が善戦しているようにも見えます。はたして、上で述べた「AI囲碁によるかも知れない手」が効いているのでしょうか。

中盤の一場面

(注) テレビ画面の引用について
 上の3つの画像は、NHK Eテレ(2018-11-4の午後放送)の画面の一部を引用させていただいたものです。これは、「文化庁が掲げる引用の7つの要件」に合致すると考えられる範囲で利用させていただきました。

2018年11月3日土曜日

MATLAB EXPO 2018Japan参加レポート

開催日:2018-10-30(火)、開催場所:グランドニッコー東京 台場
 MathWorks Japanとしては、今年は10回目の開催。公式サイト:下記に概要があるが、参加者限定で講演スライド(各50枚程度)も開示された。
 http://www.matlabexpo.com/jp/index.html


展示会場、講演会場とも超満員!

 基調講演3件、一般講演28件(7並列)、ポスター11件、企業展示20社、MathWorks社14ブース、その他に、Lightning Talksなど。MathWorks社1社のイベントなのに、予想をはるかに超える参加者に圧倒された。AI技術とその応用への関心の高さと期待の大きさを改めて感じた。参加者数、内容の充実度等は、お台場の豪華ホテルでの開催に相応しいものであった。主にMATLAB/Simulinkを利用したAIのユーザの活用事例とMathWorks社からの解説的な講演。ユーザーの適用例では、MathWorks社のコンサルトを受けているか、共同開発しているものいくつかあった。当社は、AIに不慣れだが何とか活用したいという企業からのニーズに応えている。
 
 講演は企業が多かったが、大学の研究室の成果も発表できるだろう。ポスター11件のうち、9件は大学であった。AI応用関係に強い関心を持つ技術者等のこれだけの人の前での発表はインパクトがある。色々見聞きしたが、帰り際には、「統計学が最強の学問である」(著者:西内啓)が頭をよぎった。AIも結局のところ統計学に根ざしているのか。来年度は、同じこのホテルで、2019-5-28に開催される。Call for Presentationも配布された。

小生が最も感じ入った発表を2つほど示します。

●大林組技術研:ディープラーニングを活用した山岳トンネルの岩盤評価
 トンネル掘りに何種類かあるが、ここでは、岩盤が堅く、何種かの岩石が混在して掘削が難しい「山岳トンネル」を掘って行く過程での、岩盤の状況判断にAIを活用する試みが発表された。現場の作業員のこれまでの経験や勘だけに頼らず、地質専門家の判断と同程度のAI判断を使い、現場担当者の判断を支援したい。AIで全部置き換えるつもりではやっていない。現場で経験した切羽の画像はそれほど多くはないので、教師付きディープラーニングをスクラッチからやるのは難しい。そこで、やや古典的とはなっているがAlexNetを使い、そこで学習された実績(学習済みモデル)を使う。転移学習である。

 また、AlexNetは分類結果(切羽の5段階評価結果)まで出せるが、ここでは、主に分類判定の精度を高めるため、分類フェーズをAlexNetからカットして、従来からの機械学習で実績のあるSVM(サポートベクタマシン)で行った。試行結果は思いのほか良好だったので、驚いたとのこと。4評価項目で各五段階評価の結果を得た。例えば、「割目状態:5分類評価」では、89%の的中率を得た。今後はさらに、進行していく掘削の切羽の状況を時系列的に評価する手法も取り入れたい。(LSTMとは言わなかったが、そのような物を念頭に置いているのかも。)

 この試行結果から、実用化の方向へ向かう気にさせられた。しかし、Deep Learningでやっている中味が説明できないので、不安な面があるとのこと。各コンボリューションで本当に何を判断しているのかがもっと分かる手段を得たい。色はどうも見ていないようだ。そうではなく、模様らしい。などと述べていた。
 以上のような、土木の現場でもDeep Learningが適用されつつあることに、新鮮みを感じた。

●JAXA:3日でできるディープラーニング~宇宙機の自撮り画像評価~
 このポスターは注目された。Lightning Talksでも話された。ユーモアもあって、まさにLightning Talkにふさわしく、技術的にも高く評価できると思う。宇宙機が自撮りした画像を地球へ送ってくるわけだが、宇宙での通信量やエネルギーの制約から、極めて限られたデータしか送信できない状況がある。そんな時に、失敗した自撮り画像をたくさん送られてきても非常に困る。そこで、ディープラーニングで、あたかも人間がそこにいて判断したかのような、特選画像を送ってくるような状況にしたい。

 そのために、月と「はやぶさ」の模型を作って1万枚の自撮り画像(学習用画像)を試行的に作った様子が、Ligtning Talksでユーモアを織り交ぜて説明され、会場の笑いを誘った。しかし、きちんと、「3日で、MATLABを使って、Deep Learningで結果を出した」ことが高く評価されたようだ。私も、このポスターに1票投じた。(最優秀ポスターの投票が来場者により行われた。)


ユーモアを交えたLightning Talkの様子

2018年11月2日金曜日

巨大コーパスの類似単語ベクトルをみる

 [これよりも少し詳しい関連記事を追加しました。ここにあります。]

 自然言語処理には、巨大なコーパスが必要とされます。日本語では一例として、Wikipedia日本語版が使われています。さらに、この規模の約10倍にもなる超巨大コーパス(朝日新聞の直近34年間の主要記事)に出現する単語の単語ベクトルもあります。朝日新聞単語ベクトル」です。
このデータファイルの取得申請を行い、入手できました。それを今後利用するための準備として、以下に示すような類似語検索を試行しました。

 まず、単語ベクトルの意味と、単語ベクトル演算について簡単に示しました。詳細は、ここでは述べられませんが、「単語が他の単語の近くに出現する頻度に基づいて、単語をベクトル空間モデルに埋め込む」ということです。類似した単語は似たベクトルで表現されることになります。一般には、コーパスの語彙数に応じた巨大な次元数になりますが、主要な次元だけに圧縮した空間を使います。「朝日新聞単語ベクトル」では、Word2Vec(CBOWモデル)による300次元のベクトルになっています。



 以下に、上図(MATLAB Text Analytics Toolboxの解説書(英文))を参考に作成)のような仕組みを利用した、類似語検索の例(傑作16選)を示します。もちろん、適当な類似語が見つからない場合もありますが、ここでは、試用段階なので、うまく行った例だけを示して、今後の活用への意気込みを高めたいと思います。

 以下をほぼ満たす(単語A, B, Yはgiven)、単語Aの適切な類似語単語Xは?
 「単語A - 単語B = 単語X - 単語Y

No.2:室蘭工業大学に類似していて、北海道ではなく、神奈川にある...
No.4:バイコヌールに相当する米国のロケット発射場...
No.9:女子アイススケータのザギトワに秋田犬を贈呈しましたね...
(しかし、実は、"ザギトワ"でなくても、例えば、"メアリ"でも結果は同じでした!すなわち、過去34年間の新聞記事全体に占める、"ザギトワ"と"秋田"の関係性は、それほど強くなかった。秋田は単に「場所」という意味が効いているようである。単語ベクトルと言っても、数学のベクトルとは意味合いが違う側面がありますので、その解釈には注意した方がよさそうです。)
No.11:パガニーニと言えばバイオリン曲、ショパンと言えばピアノ...
No.12:ピアノ曲のショパンに相当するバイオリン曲の作曲家はパガニーニだけではない...