2020年6月30日火曜日

日本語解析のためのCaboChaとKNP

 植物の特性に関するJSONファイルの生成では、(いつの間にか)日本語の係り受け解析が主となってしまいました。これまで、CaboChaを使ってきましたが、他にKNP [1] もあるというご教示(ここにあるコメント)をいただき、KNPも試用しました。

CaboChaとKNPの両方を使ってみる
 先の記事では、CaboChaによる係り受け解析結果が期待通りではなかった例を、9例示しました。今回は、この9例をKNPでもやってみました。確かに、KNPではいくつかの例で精度良く解析されることが分かりました。小生の理解では、KNPは、膨大な格フレーム辞書(すなわち、より踏み込んだ意味理解のための辞書)を自動構築して使っているようです。また、並列構造(例えば、"3月から4月に"では、"3月"と"4月"が並列)を明示する点も特徴と思われます。

 ただし、必ずしも全ての例文がKNPで改善されたわけではありません。依然として、日本語の解析は難しい面があることを感じます。具体的な実験結果を以下に示します。

(以下の図において、CaboChaの結果は作図アプリによる手動描画、KNPの結果はスクリーンショットの切り抜きです。)


自分のアプリケーションで係り受け解析を利用するために
 これまでよりも、選択の幅が広がりました。しかし、解析精度だけで全てが決まるわけではありません。例えば、小生の場合、アプリケーションをJAVAで作成しています。したがって、JAVAにすんなり取り入れられるか否かも、重要なのです。当然、アプリケーション開発のフェーズが進めば、状況は色々変わりますが。

参考資料
[1] 黒橋・村脇研究室 日本語構文・格・照応解析システム KNP

0 件のコメント:

コメントを投稿