2018年11月9日金曜日

類似語検索:秋田-こまち-ザギトワ

 単語の「類似度」は、曖昧さを残した用語ですが、人間が感じる(考える)類似度と、コンピュータが自然言語処理などで扱う類似度は、似て非なるものがあるようです。しかし、ここでは、後者、すなわち、コンピュータでの処理だけを扱います。

 類似語は、その元となる辞書の内容に依存します。ここでは、前回記事の続きとして、「朝日新聞単語ベクトル」を辞書とした類似語検索を行います。近年の単語ベクトル化の方式は、「単語の意味は、周囲に出現する単語によって形成される」という分布仮説に基づいていることに注意します。単語のベクトル空間においては、意味的に類似の単語は、その距離が近くなっているはずです。以下に、「秋田」など単語の類似語検索例をいくつか検討します。

【例1】「岡山」→「桃太郎」を連想の場合、「秋田」から連想される「桃太郎」の類似語は?
【例2】「こまち」から「秋田」を連想の場合、「桃太郎」から連想される「秋田」の類似語は?
【例3】「ザギトワ」から「秋田」を連想の場合、「桃太郎」から連想される「秋田」の類似語は?
【例4】「秋田」を念頭に置いた場合、「桃太郎」から連想される「秋田」の類似語は?
【例5】「秋田」を念頭に置いた場合、「秋田」から連想される類似語は?




 この2例から、朝日新聞単語ベクトル空間において、「こまち...秋田」の関係が、「桃太郎...岡山」の関係と良く類似していることが分かります。それは、例1と例2での単語ベクトル空間のイメージ図からも分かります。それでは、次に、例2での「こまち」を「ザキトワ」に置き換えた類似語探索を行ってみます。「ザギトワ」は、人気のフィギュアスケーターであり、秋田犬を贈呈された記事が多数存在するからです。


 例3でも、「ザギトワが秋田」ならば、「桃太郎は岡山」の関係は保たれています。しかし、検索結果の「岡山」の確からしさ(類似度)は、やや失われているように見えます。「秋田」と共に出現する頻度は、「こまち」の方が「ザギトワ」よりも高いように思われます。次の例4は、秋田に関連するこれらの用語を削除した場合の類似語検索です。



 この例4では、「秋田」は単に場所を示す単語として貢献しているようです。「桃太郎から連想される秋田の類似語」は、「山形」という結果です。たしかに、山形にも、桃太郎伝説は存在していて、いろいろな資料もありました。最後の例5は、「桃太郎」も削除してしまい、単に、「秋田」の類似語を検索した場合です。



 
「秋田」と言えば、「大館」という結果は納得できます。もちろん、他にもたくさん、連想できる単語があるはずですが、この朝日新聞単語ベクトル空間では、そうなっているということです。
 以上の5例から、断定的なことは言えませんが、場合によっては、強力な「意味検索」が可能であり、いろいろと応用の可能性を秘めていると思えます。しかし、実際に真に有用な応用に結びつけるには、まだかなりの検討、研究を要するようにも感じます。    

 

0 件のコメント:

コメントを投稿