春めいてきました。本日(2022-03-15)午前中の近所散歩で、道端の雑草を摘み取ってみました。すぐに6種類ほど採取できましたが、まだまだ他にもたくさんありそうです。写真撮影して、Google Lensとデジタル植物写真集[1]などで調べると、すぐに名前が分かりました。普段はあまり気にとめていませんが、こうして眺めてみると、「雑草」と呼ぶには「かわいそうな植物たち」と思えるくらい美しい。
上段左から、
ナズナ(ぺんぺん草)スギナ(つくし)
ホトケノザ オオイヌノフグリ
ここで、無慈悲にも、これらの可憐な雑草たちを解剖してみます。と言っても、メスで中身を切り開く訳ではありません。簡潔に一行で表現されたこれらの植物[1]に手を触れずに、言語学的に解析してみるのです。つまり、記述文の形態素解析と係り受け解析(単語間・文節間)[2]です。一般的な文章に比べて、堅めで専門的な難しい文ですが、完璧に解析されているようです。
ナズナ:根生葉は羽状、茎葉は細長く、果実は三味線のバチ状。
従来の国語研究所「短単位」の形態素解析器では、植物専門用語「根生葉」や「茎葉」はひとまとまりにならずに、バラバラな単語として扱われました。しかし、今回の解析器[2]では「長単位」解析モデルが使われ(BERTがここにも進出しています)、上図のような結果が得られています。つまり、専門用語をユーザ辞書登録しなくても、このように形態素解析され、それが適切な係り受け解析(上図の矢印関係)につながっているようです。
ホトケノザ:丸い葉が蓮華座状につき葉腋から紅紫色の唇形花が出る。
この例でも、「蓮華座状」や「唇形花」などがひとまとまりとなっていて、「長単位」形態素解析の効果が出ています。また、この文には途中に読点「、」がありませんが、「つき」「出る」に関する係り受けも適切に行われています。
オオイヌノフグリ:葉は広楕円形で、粗鋸歯があり、瑠璃色の小さい花が咲く。
同様に、この例でも、「広楕円形」や「
粗鋸歯」に関する形態素解析、係り受け解析は適切な結果となり、嬉しくなります。ところで、もしも「広楕円形で、」での読点「、」が無いとすると、結果は微妙に変わります。それも興味深いところであります。
ところで、最後の「オオイヌノフグリ」という名前の由来を参考資料[3]で知って、ちょっと失笑といったところです。その内容は、ここでは述べられません。さらに別の面もあります。この植物の学名Veronica persicaは、「ベロニカ」という聖女の名前にちなんでいるそうです。花の形と色彩が高貴でそれにふさわしい。あらためて、群生している写真を載せておきます。
0 件のコメント:
コメントを投稿