2022年2月16日水曜日

例文 "紫色で細長い唇形花が総状に咲く" の係り受け解析

【what is this】植物に関する記述文から、「どのような形や色の」花が「どのような位置や向きや時期に」咲くかに関する情報の自動抽出を行っています。そのために重要なのが、係り受け解析なのですが、その解析結果が想定通りにならない場合があります。これに関して、安岡孝一教授の解説記事([1][2][3])でご教示いただきたことを、忘れないようにここに纏めます。

例文「紫色で細長い唇形花が総状に咲く。」の係り受け解析
 
まず、図1は、SuPar-UniDic [1]によるこの例文の係り受け解析結果です。白線矢印は単語間係り受けです。英小文字は係り受けの種類、英大文字は品詞です。赤枠は、それをもとに算出された文節を表しています。これらから、白線矢印の逆方向の、文節間係り受け「紫色で → 細長い」が得られます。この係り受けは、一見妥当のように思えますが、実はあまり適切ではありません。なぜなら、この文での「紫色」は、「唇形花」を修飾しているはずですから。このことは、参考資料[3]のコメント欄で説明されています。

図1 SuPar-UniDicによる単語間係り受け

 次の図2は、esuparbert-base-japanese-unidic-luw-uposモデル[2]による係り受け解析結果です。この解析では、(複合語を分割しない)国語研長単位の単語係り受けがなされています。実際、図1にあった「唇形、花」は「唇形花」と一つに纏まっています。
 そして、単語間係り受けは、図1とは異なっています。結論として、文節間係り受け「紫色で → 咲く。」が得られます。しかし、これも図1で示した理由により、適切とはいえません。

図2 esuparbert-base-japanese-unidic-luw-uposモデルによる単語間係り受け

 このように、図1でも図2でも、その係り受け解析結果があまり適切ではない。これに対して、[3]のコメント欄には、図3のようになるのが適切であろうと述べられています。文節間係り受けは「紫色で → 唇形花が」となっています。上にも述べた通り、「紫色」は「唇形花」を修飾しているのですから、これが自然だと思います。しかし、一方では、「」がこのような解析を妨げることにも言及されています。

図3適切と思われる単語間係り受け([3])

ユーザ側のアプリケーションの立場
 
これ以降は、小生独自の見解です。小生のアプリケーションは、与えられた例文から、「どんな」花が「どのように」咲くかに関する単語を求めます。「どのように」については、「花」の述語に係る単語のうちから採用します。そのため、例えば、図2の係り受け解析結果を利用すると、「紫色で」は、「どのように」に属してしまいます。そうではなく、「紫色で」は、「どんな」に入れたいのです。もしも、図3のような解析結果が使えるのならばそれが可能になります。

 さて、上記例文を少し変えた「温室で細長い唇形花が総状に咲く。」を考えます。「紫色で」を「温室で」に変更しただけです。esuparによる解析結果は図4のとおり、適切です。矢印の関係は、図2と全く同一ですが、「で」についての係り受けの種類と品詞が図2とは異なります。

図4 「温室で」に変更した例文に対するesuparによる係り受け

 この結果を見ると、ユーザアプリケーション側では、図1や図2の解析結果が得られた場合、係り受けの種類と係先の品詞を調べることで、それを適切に利用できそうに思いました。今後、さらに検討したいと思います。

謝辞
 小生のコメント(質問)に丁寧にご回答下さった安岡孝一教授に感謝申し上げます。また、取り上げた例文は渡辺坦氏のwebサイト[4]にある植物の説明文を参考にさせていただき、設定したものです。

参考資料

[1] yasuokaの日記: BERTモデルを用いた日本語係り受け解析ツールSuPar-UniDicリリース
https://srad.jp/~yasuoka/journal/645402/

[2] yasuokaの日記: esuparの国語研長単位向け係り受け解析モデルbert-base-japanese-unidic-luw-uposリリース
https://srad.jp/~yasuoka/journal/652806/

[3] yasuokaの日記: Universal DependenciesのCoNLL-Uデータを直接spaCyに読み込むには
https://srad.jp/~yasuoka/journal/652825/

[4] 渡辺坦:植物の名前を探しやすい デジタル植物写真集
http://plantidentifier.ec-net.jp/

0 件のコメント:

コメントを投稿