2022年3月22日火曜日

日本語解析では「くて」も曲者か?

  現代の日本語の係り受け解析を利用していて、時に困ったなあ、という場面に出会います。恐らく、解析プログラムのバグというわけではなく、その解析手法では必然的にそうなるように思われます。当方は素人なので、本当のことは分かりませんが、そういった事例を書き留めておいて、後日の検討、対策に資することができれば良い。

 ここで取り上げるのは、「短くて太い茎」や「小さくて厚い葉」などのくてです。図1に、以下の2つの例文とその係り受け解析結果を示します。(a)と(b)の違いは、「秋に」の有無だけです。

 (a) 小さくて厚い葉が秋に枯れる。
 (b) 小さくて厚い葉が枯れる。

 係り受け解析器として、参考資料[1]で紹介されている国語研長単位モデルja_gsdluw [2]を利用しました。

 当方のアプリケーションでは、係り受け解析結果を利用して、この場合「葉」を修飾する単語を全て求めたいのですが、例文(b)では、「小さくて→枯れる」という係り受けとなってしまいました。そのため、「葉」の修飾語としての「小さくて」を取り出すことができません。はて、どうしたものか。

 そこで、「小さくて厚い葉が、」のように、読点を追加してみた結果が図2です。これだと、例文(a)と同じく、「小さくて→厚い」という適切な結果が得られました。しかし、こんな短い文に、普通は、読点は入れませんが...

 実は、こうしても、まだ疑問が残ります。以前、[3]で安岡孝一教授からご教示いただいた通り、本来、「小さくて」と「厚い」は共に「葉」を修飾するものです。なので、「小さくて→葉」「厚い→葉」のような係り受けとすべきと思われる... つまり、今回の「くて」も[3]での「」も同じ問題のようです。

参考資料

[1] yasuokaの日記: spaCy向け国語研長単位モデルja_gsdluw仮リリース
https://srad.jp/~yasuoka/journal/653385/

[2] UD Japanese GSD+GSDLUW r2.9 with Named Entity Gold Labels
https://github.com/megagonlabs/UD_Japanese-GSD/releases/tag/r2.9-NE

[3] 例文 "紫色で細長い唇形花が総状に咲く" の係り受け解析
https://sparse-dense.blogspot.com/2022/02/blog-post.html

0 件のコメント:

コメントを投稿