2022年3月25日金曜日

植物図鑑などで珍しい形態の「葉」を見つけたい

 植物図鑑や写真集を眺めていて、「葉」の形態が珍しいものを見つけたいと思いました。でも、漫然と眺めていたのでは日が暮れてしまいます。そこで、植物の特性の説明文に対する自然言語処理の登場です。

「葉」の特性を示す用語の抽出
 まず、参考資料[1]に掲載されている、植物全2,174種(別名を含めると3,000種以上)に関する、簡潔な一行説明文の全てに自然言語処理(形態素解析と単語間・文節間係り受け解析)を施します。その結果を利用して、「葉」の特性に関する用語を全て抽出します。原則的には、「葉」の前方にある名詞、形容詞、動詞などの修飾語と、「葉」からその述語までの範囲の関連用語が対象となりますが、例外的に、その範囲を超えて、述語の後方まで調べる場合もあります。当然、その中で、「葉」以外の「花」や「果実」等に関する用語は除去するのですが、これがなかなか難しいです。ですが、用語の品詞と係り受けの種類などを頼りに、何とか曲がりなりにも目的を達するアプリケーションを作成しました。その実行結果が図1なのです!

 完璧ではありませんが、ご覧の通り、(重複無しで)約600語を抽出できました。この結果は、植物界の葉の形態の全貌を凝縮している、と言えないこともない。(ただし、上述の困難さから、花や果実に関する用語も若干入り込んでいます。)これなら、目視で、「おや、これは何だろう?」という珍しい特性が見つかるはずです。

珍しい特性を持つ「葉」を調べる
 このようにして、「葉」の幾つかの珍しい特性が見つかりました。例えば、図2に示すように、「表裏逆転」「右右左左」「2回偶数羽状複葉」「魚骨状」などです。あまり聞いたことのない、何か珍しそうな特性に見えます。


 ここまで来れば、あとは、植物写真集[1]を検索すれば良い。実際、図3に示す通り、該当植物が見つかり、一行説明文(詳細説明文へのリンクもあります)と写真を見て納得できました。こんな楽しみ方もあるのではないでしょうか。


 なお、「珍しい用語」は、出現頻度が低いと考えられますので、図1に示した各用語の出現頻度を計算して「珍しい」に当たりをつけるのも良いでしょう。実際、出現度数は以下の通りでした。WordCloudは、普通、出現頻度の高い単語を検出するための可視化ですが、ここではそれの逆順の使い方に相当します。
 なお、これらの関連用語の出現頻度のWordCloudによる可視化については、こちらの記事に書きました。

「花」についても同様に調べる
 さて、「葉」以外に「花」についても、同様に調べることができます。「花」の方が「葉」よりも多様であり、特性に関する抽出用語もうんと多いと予想しましたが、結果はむしろその逆でした。すなわち、上述の方法で調査する限り、「葉」の特性の方がより多様であることを示す結果となりました。(詳細は略しますが。)

国立国語研究所「長単位」向け係り受け解析モデル
 これまでの記事でも述べましたが、今回のアプリケーションは、参考資料[2][3]の国語研長単位解析モデルを利用しています。このため、上に示した通り、「楕円形」「長楕円形」「羽状複葉」「2回偶数羽状複葉」などがバラバラにならず、それぞれまとまった単語(形態素)として認識されており、アプリケーション作成がとても楽になっています。

参考資料
[1] 渡辺坦:植物の名前を探しやすい デジタル植物写真集

[2] yasuokaの日記: spaCy向け国語研長単位モデルja_gsdluw仮リリース
https://srad.jp/~yasuoka/journal/653385/

[3] UD Japanese GSD+GSDLUW r2.9 with Named Entity Gold Labels
https://github.com/megagonlabs/UD_Japanese-GSD/releases/tag/r2.9-NE

0 件のコメント:

コメントを投稿