2019年11月12日火曜日

スマホを音/画像/ポーズの識別器にする

 先日(2019年11月初旬)に発表されたGoogleのTeachable Machine 2.0 [1]はちょっと衝撃的でした。バージョン1.0は2017年に発表されていたのですが、今回のバージョン2.0は著しく進歩しています。”Teachable Machine 2.0 makes AI easier for everyone”のキャッチフレーズの通りだと感じます。

 このTeachable Machineの特徴は、ブラウザのもとで動くTensorflow.jsを使っており、学習も認識もローカルマシンできてしまうことです。学習は今のところPCでしかできないようですが、学習済みのモデルは、スマホへ組み込めるので、スマホでリアルタイムに、音/画像/ポーズの識別ができてしまいます!ここで特筆すべきは、コーディング不要であり、例えば以下のようなスマホ用の音識別器は、全体で15分くらいでできてしまうことです!

 ここでは、図1に示した5つの音源を扱うことにします。(画像やポーズ認識もこの後やってみます。)


 まず、ブラウザで、周辺雑音と5種類の音をスマホへ入力して(各々20秒程度)、図2の中央にあるTraining(学習)ボタンを押します。数十秒で学習が完了します。恐らく、転移学習モデルが背後にあるため、こんなに速く終わるのだと思います。次に、スマホで学習済モデルを使うために、これをexportします。


 スマホ側では、この学習済みモデルのURLをブラウザから開くだけです。すなわち、これだけで、スマホが、音の識別器になってしまいました。図3と図4には、スマホに新たにテスト用入力音を与えた場合のリアルタイム識別結果を示します。5種類とも、かなり高い確度で認識に成功しています。




 この学習モデルは、JavaScriptとJsonで示されているので、スマホ側で、認識結果を使った何らかのアプリケーションを作ることもできるはずです。その場合は、JavaScriptプログラミングの基礎知識などは必要になりますが。

参考資料
[1] Teachable Machine 2.0 makes AI easier for everyone
https://blog.google/technology/ai/teachable-machine/



0 件のコメント:

コメントを投稿