2018年11月2日金曜日

巨大コーパスの類似単語ベクトルをみる

 [これよりも少し詳しい関連記事を追加しました。ここにあります。]

 自然言語処理には、巨大なコーパスが必要とされます。日本語では一例として、Wikipedia日本語版が使われています。さらに、この規模の約10倍にもなる超巨大コーパス(朝日新聞の直近34年間の主要記事)に出現する単語の単語ベクトルもあります。朝日新聞単語ベクトル」です。
このデータファイルの取得申請を行い、入手できました。それを今後利用するための準備として、以下に示すような類似語検索を試行しました。

 まず、単語ベクトルの意味と、単語ベクトル演算について簡単に示しました。詳細は、ここでは述べられませんが、「単語が他の単語の近くに出現する頻度に基づいて、単語をベクトル空間モデルに埋め込む」ということです。類似した単語は似たベクトルで表現されることになります。一般には、コーパスの語彙数に応じた巨大な次元数になりますが、主要な次元だけに圧縮した空間を使います。「朝日新聞単語ベクトル」では、Word2Vec(CBOWモデル)による300次元のベクトルになっています。



 以下に、上図(MATLAB Text Analytics Toolboxの解説書(英文))を参考に作成)のような仕組みを利用した、類似語検索の例(傑作16選)を示します。もちろん、適当な類似語が見つからない場合もありますが、ここでは、試用段階なので、うまく行った例だけを示して、今後の活用への意気込みを高めたいと思います。

 以下をほぼ満たす(単語A, B, Yはgiven)、単語Aの適切な類似語単語Xは?
 「単語A - 単語B = 単語X - 単語Y

No.2:室蘭工業大学に類似していて、北海道ではなく、神奈川にある...
No.4:バイコヌールに相当する米国のロケット発射場...
No.9:女子アイススケータのザギトワに秋田犬を贈呈しましたね...
(しかし、実は、"ザギトワ"でなくても、例えば、"メアリ"でも結果は同じでした!すなわち、過去34年間の新聞記事全体に占める、"ザギトワ"と"秋田"の関係性は、それほど強くなかった。秋田は単に「場所」という意味が効いているようである。単語ベクトルと言っても、数学のベクトルとは意味合いが違う側面がありますので、その解釈には注意した方がよさそうです。)
No.11:パガニーニと言えばバイオリン曲、ショパンと言えばピアノ...
No.12:ピアノ曲のショパンに相当するバイオリン曲の作曲家はパガニーニだけではない...

0 件のコメント:

コメントを投稿