sparse-dense by FoYo: 植物記述文からのjsonテキスト自動生成の精密化(2)

【what is this】先の記事の続編です。植物に関する記述文からjsonテキストを自動生成する際のさらに難しい例文に出会いました。これを記録しておき、係り受け解析の他にどのような情報（推論の枠組みや辞書類）が必要なのかを検討したい。

■散歩で見つけたウメの小枝
　確実に春めいてきました。近所にあった田んぼや畑は年々消えて行きますが、それでも散歩道の近くには農家が散在しています。道の一角に無人の野菜販売スタンドがあります。小さな貯金箱みたいなのが置いてあり、一包みあたり、百円をそこへ投入して買います。今日は、野菜の他に、梅の小枝３本ほどを束ねたものも置いてありました。これはいい、と思って買いました。図１のように、丸い小さな蕾もたくさんついています。

■ウメについての簡潔な記述からのjson自動生成
　この梅に関する簡潔な記述が、参考資料[1]にあります。

　ウメ：花に柄がなく、葉が出る前に咲き、古枝に棘がある。

　図１の写真からも分かるように、これはウメを的確に表現していると思います。これから、次のような（ウメの"花"についての）jsonテキストを自動生成したい、ということがすぐに想い浮かびました：

　{"花":{"柄":"無い", "時期":"葉が出る前"}}

　しかし、これは難しそうです。図２には、SuPar-UniDic[2]による係り受け解析結果を示しましたが、他にどんな情報（辞書や推定の枠組み）が必要なのでしょうか。

　課題は多そうです。例えば、「葉が」という主語があるのですが、この文は主に「花」について述べており、「葉」は「咲く」ことを修飾しているに過ぎません。また、「出る前に」だけでなく、「出た後に」や「出る前後に」や「出る頃に」などが出現することも多そうですので、これらを全部、「時期」というkey（タグ）に集約できるのでしょうか。難しそうですが、今後の検討材料として記憶しておく価値はあるでしょう。

参考資料

[1] 渡辺坦：植物の名前を探しやすいデジタル植物写真集
http://plantidentifier.ec-net.jp/

[2] yasuokaの日記： BERTモデルを用いた日本語係り受け解析ツールSuPar-UniDicリリース
https://srad.jp/~yasuoka/journal/645402/

2022年3月9日水曜日

植物記述文からのjsonテキスト自動生成の精密化(2)

0 件のコメント:

コメントを投稿