■日本語係り受け解析器CaboCha
ここで利用するのは、参考資料[7]に示したCaboChaです。以下の解析結果は、デフォルト設定のまま使った場合です。標準辞書以外の辞書を使うなど、環境設定を変えた場合は、異なる結果となる可能性があります。
■これまでの利用経緯
植物の特性の一行記述(参考資料[6]に掲載されているもの)に対して、CaboChaを適用し、その係り受け解析結果に基づき、JSONテキストを生成してきました。参考資料[1]〜[5]をご覧下さい。その経験にもとづき、係り受け解析が期待通りに行かなかった例をまとめます。
■係り受け解析が期待通りの結果とならない場合の検討
以下の、9例((A)〜(K))は、参考資料[6]を参考に設定したものですが、原文のとおりではなく、一部省略したり改変している場合があります。いずれも、人間が読む場合は自然であり、特に問題はないのですが、何らかの理由で期待通りの係り受け解析結果とならなかったケースです。
- 9個の例文 -
●複文に含まれる単文の区切りの認識に問題?
例文(A) 茎は細く葉は披針形である。
例文(B) 葉は細長い披針形で、装飾花のある白い花が咲く。
例文(C) 葉は広楕円形で、5深裂した白い花が咲く。
●何らかの理由により、不自然な修飾となる問題
例文(E) 葉は葉柄の長い卵形である。
例文(F) 外皮が淡紅色の種が見える。
例文(G) 葉は2回3出複葉で、茎先に大きい花が単生する。
例文(H) 黄橙色で一重の花を数輪つける。
●文節を生成するための辞書に載っていない用語
例文(J) 葉は卵円形で、小さい淡青紫色の花が咲く。
例文(K) そう果を萼片が丸く包む。
■係り受け解析が期待通りの結果とならない場合の対応
上記の9例の係り受け解析結果を以下に示します。そして、何が問題であるかを示し、それを回避するために変更した例文を示します。この9例は典型例と思われますが、まだ他に問題となる例文もかなり存在するかも知れません。
■まとめ
上記で、なぜ期待どおりの解析結果が得られなかったのかは、もう少し調べられそうです。なぜなら、文節(上記図の黄色い丸い図形)がどんな品詞で構成されているかの情報も得られているからです。しかし、当面は本記事のレベルで留めておきます。本記事の内容について、何か間違いがあるかも知れません。ご指摘戴ければ幸いです。
参考資料
[1] 植物に関する自由記述のJSON化とJavaラムダ式とストリーム(B)
[2] 植物に関する自由記述のJSON化とJavaラムダ式とストリーム(A)
[3] 植物に関する自由記述からJSONを自動生成(その3)
[4] 植物に関する自由記述からJSONを自動生成(その2)
[5] 植物に関する自由記述からJSONを自動生成(その1)
[6] 渡辺 坦:植物の名前を探しやすいデジタル植物写真集
[7] CaboCha/南瓜: Yet Another Japanese Dependency Structure Analyzer
例文(A)~(C)に関してはKNPを使った方が、CaboChaより良い精度で係り受け解析できます。例文(D)以降は、なかなかに難しいようですが、よければお試し下さい。
返信削除茎は─────┐ <体言>
細く<P>──┐ <用言:形><格解析結果:ガ/茎;ヨリ/-;ガ2/->
葉は─────┐ │ <体言>
披針形である。<P>─PARA<体言><用言:判><格解析結果:ガ/葉;カラ/->
安岡孝一先生、有用なコメントありがとうございます。
削除この方面をご専門とする先生に、このブログ記事を読んで戴いたことが嬉しいです。
例示戴いた、KNPによる例文(A)の解析結果は、確かに私がイメージしていたものです。
今後、KNPも利用させていただき、知識を深めて行きたいとおもいます。