sparse-dense by FoYo: MIT App Inventorで顔認識学習モデルFacemeshを

【what is this】MIT App Inventor のExtensionとして、Googleの顔認識(主要450点)学習モデルFacemeshが利用できるようになりました[1][2]。これにより、顔認識関係のスマホアプリがさらに作りやすくなりました。さっそく、簡単なアプリ３つを作ってみましょう。

■[Exercise-1] 顔の向きを考慮して、口の開閉でスイッチOn/Off
　これは、前のブログ記事で取り上げた例題です。その際は、PythonからFacemeshに関するAPIを利用して作りました。今回は、これと同じことを、MIT App Inventor のExtensionを利用して行います。

　解答例は、Fig.1 のようなApp Inventorプログラムです。これがソースプログラムの全てですから、「こんなに簡単に！？」と思う人も多いでしょう。プログラムは読みやすく、そのロジックも明解そのものです。
　図にはコメントがありますので、説明は特に必要ないと思います。口の開閉を上下の唇中央点のy座標の差分で、顔の向きを鼻筋２点のx座標の差分で検出していることにご注目下さい。それらが、ブロック（when...FaceUpdated）に纏められ、顔や口が動いた場合にリアルタイムに起動される仕組みです。

　簡単な拡張として、以下のように、マスクを付けたり外したりもやってみましょう。

■[Exercise-2] - 顔の動きで、"はい", "いいえ", "どっちかな"を識別
　上の[Ecercise-1]では、顔の現時点の特定の「状態」を検出しました。一方、顔の「連続した動き」を得たい場合もあります。例えば、「うなずく」「顔を横に振る」「顔を傾ける」などです。これらを検出するには、顔の揺れた方向（上下、左右、斜め）、および、その振幅を得る必要があるでしょう。このような処理も、同様にApp Inventor（Facemesh extension付き）の世界でできます。その実現例を下図に示します。以下の３つの振幅を正規化して、そのうち、最も大きい値を与えた動作を検出します。

●Yes：うなずき（はい）→ 鼻の頂点の上下（y軸方向）の変動

●No：いやいや（いいえ）→ 鼻の頂点の左右（x軸方向）の変動

●N/A：どうかな（？）→ 額の上の２点間の線分とｘ軸がなす角度の変動

■[Exercise-3] - 発話時の口形面積の変化を可視化して楽しむ
　MIT App Inventorの強みのひとつは、GUIとの連携の容易さです。Fig.4 に示すこの練習問題も、それを生かしたアプリの作成です。Facemeshでは、顔の主要450点を検出できるのですが、ここでは、口(くち)回りの４点だけ使います。The simpler the better. この菱形の口の面積の推移（青い線）とその変化率（赤い線）をグラフにします。口の動きとその波形を見て楽しむ練習問題です。遊びが何らかのヒントを与えることもあり得る。

　このような口（くち）パクから、例えば、"イノシシ" / "トラ"、あるいは"apple" / "orange"をきちんと区別する課題に取り組む場合には、さらに面積変化の加速度の波形が必要かもしれない。そのような波形（またはその周波数解析結果）を、発話種類ごとに数百件用意して、それらを学習させることになるでしょう。
　なお、身体の動きの加速度の周波数解析に関しては、参考文献[3]に丁寧な解説があり有用です。また、口の動きを入力とする機械読唇に関しては、参考文献[4]に基本事項と手法が詳しく叙述されています。

■感想
　今回のMIT App Inventor Extension for Facemeshによって、顔認識関係スマホアプリの開発がかなり容易になります。[Exercise-２]では、App InventorのBallコンポーネントを使っており、タッチ、ドラッグなどによるインタラクションも可能です。他にも、Facemeshと連携できる場面がありそうです。MIT App inventor leads us to a new frontier in smartphone programming.

References
[1] Artificial Intelligence with MIT App Inventor, http://appinventor.mit.edu/explore/ai-with-mit-app-inventor
[2] Facemesh Filter Camera, http://appinventor.mit.edu/explore/resources/ai/facemesh

[3] 田中博、五百蔵重典：IoT時代のデータ処理の基本と実践、コロナ社刊、2018年3月（特に、第５章フーリエ解析）
[4] 宮崎剛、中島豊四郎：［推薦論文］日本語の発話映像における初口形の検出方法提案、情報処理学会論文誌、Vol.53、No.3、pp.1472-1479、2012.

2021年3月30日火曜日

MIT App Inventorで顔認識学習モデルFacemeshを

0 件のコメント:

コメントを投稿