2022年3月15日火曜日

身近な春の雑草たちの言語学的解剖?(その1)

  春めいてきました。本日(2022-03-15)午前中の近所散歩で、道端の雑草を摘み取ってみました。すぐに6種類ほど採取できましたが、まだまだ他にもたくさんありそうです。写真撮影して、Google Lensとデジタル植物写真集[1]などで調べると、すぐに名前が分かりました。普段はあまり気にとめていませんが、こうして眺めてみると、「雑草」と呼ぶには「かわいそうな植物たち」と思えるくらい美しい。

上段左から、
ナズナ(ぺんぺん草)スギナ(つくし)
ホトケノザ オオイヌノフグリ

 ここで、無慈悲にも、これらの可憐な雑草たちを解剖してみます。と言っても、メスで中身を切り開く訳ではありません。簡潔に一行で表現されたこれらの植物[1]に手を触れずに、言語学的に解析してみるのです。つまり、記述文の形態素解析と係り受け解析(単語間・文節間)[2]です。一般的な文章に比べて、堅めで専門的な難しい文ですが、完璧に解析されているようです。

ナズナ:根生葉は羽状、茎葉は細長く、果実は三味線のバチ状。
 従来の国語研究所「短単位」の形態素解析器では、植物専門用語「根生葉」や「茎葉」はひとまとまりにならずに、バラバラな単語として扱われました。しかし、今回の解析器[2]では「長単位」解析モデルが使われ(BERTがここにも進出しています)、上図のような結果が得られています。つまり、専門用語をユーザ辞書登録しなくても、このように形態素解析され、それが適切な係り受け解析(上図の矢印関係)につながっているようです。

ホトケノザ:丸い葉が蓮華座状につき葉腋から紅紫色の唇形花が出る。
 この例でも、「蓮華座状」や「唇形花」などがひとまとまりとなっていて、「長単位」形態素解析の効果が出ています。また、この文には途中に読点「、」がありませんが、「つき」「出る」に関する係り受けも適切に行われています。



オオイヌノフグリ:葉は広楕円形で、粗鋸歯があり、瑠璃色の小さい花が咲く。
 同様に、この例でも、「広楕円形」や「粗鋸歯」に関する形態素解析、係り受け解析は適切な結果となり、嬉しくなります。ところで、もしも「広楕円形で、」での読点「、」が無いとすると、結果は微妙に変わります。それも興味深いところであります。

 ところで、最後の「オオイヌノフグリ」という名前の由来を参考資料[3]で知って、ちょっと失笑といったところです。その内容は、ここでは述べられません。さらに別の面もあります。この植物の学名Veronica persicaは、「ベロニカ」という聖女の名前にちなんでいるそうです。花の形と色彩が高貴でそれにふさわしい。あらためて、群生している写真を載せておきます。

参考資料

[1] 渡辺坦:植物の名前を探しやすい デジタル植物写真集
http://plantidentifier.ec-net.jp/

[2] yasuokaの日記: esuparの国語研長単位向け係り受け解析モデルbert-base-japanese-unidic-luw-uposリリース
https://srad.jp/~yasuoka/journal/652806/

[3] 稲垣栄洋:身近な雑草の愉快な生き方、ちくま文庫、2011年4月発行

0 件のコメント:

コメントを投稿