2021年4月5日月曜日

口形から「あ/い/う/え/お/閉」を識別

 【what is this】MIT App Inventor のExtension利用の続編です。今回は、口形から、「あ/い/う/え/お/閉」を識別することを試みました。口の周りを含む、顔の多数のキーポイントがリアルタイムに得られるので、口形パタンの画像をdeep learningさせることなく、簡単な計算で識別します。

[Exercise-4] 顔のキーポイントを利用して口形から「あ/い/う/え/お/閉」を識別
 これは、前回記事に続く、練習問題です。スマホで撮影した顔から口形を認識して、それが、「あ/い/う/え/お/閉」のいずれであるかを、リアルタイムに識別するアプリを作成しましょう。

 図1の上段は、これらの母音を発話した時の顔のキーポイント(全450点)の状況です。一方、その下段は、口の周りの6点だけで口形を扱うために考えたフレームモデルです。どの発話なのかを判断するために、このフレームから、ある2つの特徴量(awb, cwa)を定義します。これらの特徴量は、口の開き具合や角度を反映するように、簡単な計算で決めました。



 各発話について、32回の試行を行い、これら2つの特徴量(awb, cwa)の相関を示したものが図2です。この結果から、6種類の口形が、余裕をもって、分類(分離)できることが分かりました。また、「あ」と「え」は比較的近いことが分かります。実感と合致します。一方、「う」と「閉」は、フレームでは似ていますが、図2によればかなり明確に分離されているのが面白い。


 それならば、ということで、これらの口形をリアルタイムに認識するデモアプリを作成しました。下図は、「あ-え-い-お-う-い-閉」の順に発話した場合です。ほぼ良好に6種の口形を識別できているようです。



 むやみに、画像を沢山用意して、それをdeep learningさせる前に、ちょって待て。何とか特徴量を見つけて、それらの関係を観察し、それに基づく簡単なプログラムで識別できる場合もある。今回は、そのような一例のように思います。

0 件のコメント:

コメントを投稿