2020年6月24日水曜日

日本語係り受け解析を有効活用するために(その1)

【要旨】これまでの日本語係り受け解析の利用において、人間には自然な文であっても、妥当な解析結果が得られない場合もありました。そのような典型例をここにまとめておき、今後の有効活用に資することとしたい。

日本語係り受け解析器CaboCha
 ここで利用するのは、参考資料[7]に示したCaboChaです。以下の解析結果は、デフォルト設定のまま使った場合です。標準辞書以外の辞書を使うなど、環境設定を変えた場合は、異なる結果となる可能性があります。

これまでの利用経緯
 植物の特性の一行記述(参考資料[6]に掲載されているもの)に対して、CaboChaを適用し、その係り受け解析結果に基づき、JSONテキストを生成してきました。参考資料[1]〜[5]をご覧下さい。その経験にもとづき、係り受け解析が期待通りに行かなかった例をまとめます。

係り受け解析が期待通りの結果とならない場合の検討
 以下の、9例((A)〜(K))は、参考資料[6]を参考に設定したものですが、原文のとおりではなく、一部省略したり改変している場合があります。いずれも、人間が読む場合は自然であり、特に問題はないのですが、何らかの理由で期待通りの係り受け解析結果とならなかったケースです。

- 9個の例文 -
複文に含まれる単文の区切りの認識に問題?
 例文(A) 茎は細く葉は披針形である。
 例文(B) 葉は細長い披針形で、装飾花のある白い花が咲く。
 例文(C) 葉は広楕円形で、5深裂した白い花が咲く。
何らかの理由により、不自然な修飾となる問題
 例文(E) 葉は葉柄の長い卵形である。
 例文(F) 外皮が淡紅色の種が見える。
 例文(G) 葉は2回3出複葉で、茎先に大きい花が単生する。
 例文(H) 黄橙色で一重の花を数輪つける。
文節を生成するための辞書に載っていない用語
 例文(J) 葉は卵円形で、小さい淡青紫色の花が咲く。
 例文(K) そう果を萼片が丸く包む。

係り受け解析が期待通りの結果とならない場合の対応
 上記の9例の係り受け解析結果を以下に示します。そして、何が問題であるかを示し、それを回避するために変更した例文を示します。この9例は典型例と思われますが、まだ他に問題となる例文もかなり存在するかも知れません。











まとめ
 上記で、なぜ期待どおりの解析結果が得られなかったのかは、もう少し調べられそうです。なぜなら、文節(上記図の黄色い丸い図形)がどんな品詞で構成されているかの情報も得られているからです。しかし、当面は本記事のレベルで留めておきます。本記事の内容について、何か間違いがあるかも知れません。ご指摘戴ければ幸いです。

参考資料
[1] 植物に関する自由記述のJSON化とJavaラムダ式とストリーム(B)
[2] 植物に関する自由記述のJSON化とJavaラムダ式とストリーム(A)
[3] 植物に関する自由記述からJSONを自動生成(その3)
[4] 植物に関する自由記述からJSONを自動生成(その2)
[5] 植物に関する自由記述からJSONを自動生成(その1)
[6] 渡辺 坦:植物の名前を探しやすいデジタル植物写真集
[7] CaboCha/南瓜: Yet Another Japanese Dependency Structure Analyzer

2 件のコメント:

  1. 例文(A)~(C)に関してはKNPを使った方が、CaboChaより良い精度で係り受け解析できます。例文(D)以降は、なかなかに難しいようですが、よければお試し下さい。

     茎は─────┐     <体言>
         細く<P>──┐ <用言:形><格解析結果:ガ/茎;ヨリ/-;ガ2/->
     葉は─────┐   │ <体言>
    披針形である。<P>─PARA<体言><用言:判><格解析結果:ガ/葉;カラ/->

    返信削除
    返信
    1. 安岡孝一先生、有用なコメントありがとうございます。
      この方面をご専門とする先生に、このブログ記事を読んで戴いたことが嬉しいです。
      例示戴いた、KNPによる例文(A)の解析結果は、確かに私がイメージしていたものです。
      今後、KNPも利用させていただき、知識を深めて行きたいとおもいます。

      削除