2022年2月20日日曜日

植物の記述文から、花、葉、果実の特徴を抽出するアプリ

【what is this】これまでの続きです。SuPar-UniDic [1]の係り受け解析を利用して、植物に関する記述文から、葉と花と果実に関して、特徴を取り出し、その記述文を(ある意味で)構造化して表現するアプリを作成しました。まだまだ不完全ですが、ある程度複雑な文章について、期待通りの結果が得られる場合が出てきましたので、以下に示します。

植物の記述文から「花」「葉」「果実」の特徴を抽出する
 
以下の例文について検討します。この植物ZZは、架空のものですが、参考資料に[2]記載されている植物の記述を参考にして、当方が尤もらしく特徴を記述したものです。

植物ZZ:春先に小さな楕円形の葉が出て、低温でも紅の丸い花がまばらに咲き、明るく輝く。晩秋に小粒の堅い果実が無数につく。

 これを以下のように変形したいのです。すなわち、葉と花と果実に関して、「どのような色や形や大きさ」で「どのように」出現するかが、より明確になるようにしたいのです。

   [楕円形の, 小さな] 葉が  [春先に]出て、
   [丸い, 紅の] 花が  [低温でも, まばらに]咲き、[明るく]輝く。
   [小粒の, 堅い] 果実が  [晩秋に, 無数に]つく。

 このアプリの実行結果は図1に示すように、上記と完全に合致しました。まずはめでたし。実際、葉と花と果実を修飾する単語は正しく抽出されています。また、「出て、」「咲き、輝く、」「つく。」に係る単語も適切に得られています。

図1 作成したアプリの実行結果(文字の彩色は人手による)

SuPar-UniDic [1]による係り受け解析結果
 
この例文に対するSuPar-UniDic [1]による係り受け解析結果を図2に示します。右欄の英小文字は係り受けの種類、左側の英大文字は品詞です。白線矢印は単語間の係り受けを示し、赤枠は文節を意味します。

図2 SuPar-UniDic [1]による単語間係り受け解析結果

 このように適切な係り受け解析結果が得られていれば、今回のアプリ作成は簡単なように思えます。しかし、実際には、適宜解釈、考慮すべき点が色々あります。例えば、「花」の述語としては「咲き、」だけではなく、「輝く。」も入れ、それぞれの修飾語も付加する必要があります。また、本例以外に、多様な言い回しが数多く存在するので、例外的な処理も随時発生するはずです。

なぜこんなアプリを作りたいのか?
 
参考資料[2]などには、数千件の植物記述文が掲載されています。その植物空間の全貌を自然言語処理の観点から覗いてみたい、掴んでみたい。そのための布石と考えています。改訂を重ねて行きます。

参考資料

[1] yasuokaの日記: BERTモデルを用いた日本語係り受け解析ツールSuPar-UniDicリリース
https://srad.jp/~yasuoka/journal/645402/

[2] 渡辺坦:植物の名前を探しやすい デジタル植物写真集
http://plantidentifier.ec-net.jp/

0 件のコメント:

コメントを投稿