2021年12月15日水曜日

タイタニック号データも球面SOMで分析してみる

【what is this】以前、MLB投球の機械学習に関して、球面SOMを用いた分析を行いました。今回は、タイタニック号の乗客データについて、同様に球面SOMで分析しました。技術的なことは別として、SOMの素晴らしさを改めて感じられると思います。

■ タイタニック号の乗客の「生死」の自動分類 
 タイタニック号のデータの詳細は、前の記事をご覧下さい。その記事で扱ったFeatured Dataset には、全部で1,043人乗客データ(生還415名、落命628名)があります。それぞれに、9項目(9の特徴量)の値が記載されています。そして、各人に、「生 / 死」のラベルが付与されています。

 このデータから、乗客の生死を球面SOMで自動分類させるのです。ここで注目すべきことは、球面SOMは、「生 / 死」のラベルは全く利用せずに、(9項目から成る)入力データを何らかのクラスタに分類してくれます。すなわち、ラベル無し(教師信号なし)に機械学習してクラスタを作ります。その結果の一例を図1に示します。

 
 これをみると、何種類かのクラスタにデータが分類されていることが分かります。そして、驚くべきことに、この分類結果に、元々あったラベルをあてはめてみると、この図では、"生"と"死"にほぼ分類されていることが分かります。"生"も"死"も一つではなく、何種類かのクラスタに分かれているようですが、この図では、赤い太線が生死の強い境界線になっているようです。

 なぜ、「生 / 死」のラベルを利用せずに、9次元のベクトルデータをこのように分類できたのでしょうか?不思議にも思いますが、それがこの技術の素晴らしさだと思います。

 さらに詳しくみてみましょう。図2と図3は、図1の場合よりも、ニューラルネットワークのニューロンの個数を増やした場合です。図2は、正面の半球面が、幸いなる「生還者」の世界であることを示しています。。一方、図3は、図2の球面の裏側ですが、そこは恐ろしい死の世界となっています。



0 件のコメント:

コメントを投稿