前編(その1)では、5種類のお菓子などを振った場合の音データそれぞれ100件(1件には、10ms分の、256周波数のスペクトルが格納されている)のTraining用データと、同じく、それぞれ100件のTest用データを使いまいした。その結果、全体の
正解率は90.1%でした。
その際に採用したレイヤーのうちの、ReccurentInput 〜 RecurrentOutputまでをまとめたUnit(ブロック)を使うこともできます。すなわち、このSony Neural Network Consoleには、
LSTMをレイヤーとして使えるようになっています。そこで、今回はこれを使ってみました。他のハイパーパラメータも若干修正していますが、結果として、
全体の正解率は95.2%まで行きました!(サッポロポテトだけは、若干低い認識率のままでした。といっても、87%の認識率です。)
以下に、その様子を示します。
|
今回のLSTM(前回の構成よりもかなり簡単になっている) |
|
ラーニングカーブ(Training Error & Validation Error) |
|
学習後の評価結果(正解率は、全体で95.2%)#拡大してご覧下さい。 |
0 件のコメント:
コメントを投稿