2020年9月2日水曜日

国立国語研究所「言語資源活用ワークショップ2020」(その1)

 【要旨】国立国語研究所 コーパス開発センター主催の「言語資源活用ワークショップ2020」が、9月8日と9日に開催されます。ただし、新型コロナウィルス感染予防の観点からWeb開催です。情報系の研究者や技術者にとっては、少し分野が違いますが、ご参考までに(小生の理解の範囲で)概要を書きます。→続編はこちらにあります。

ワークショップの趣旨
 本研究所は、日本語の全貌を把握するために様々な観点から研究開発を行っています。多様で大規模な言語コーパスの開発もその一貫です。今回は、そのようなコーパス言語学および言語資源研究の開かれた研究交流の場を提供するとのことで、一般からも関連の研究成果を募集しました。
https://pj.ninjal.ac.jp/corpus_center/lrw2020.html

ワークショップの概要
 2日間で、シングルセッション(4セッション)で合計37件のポスター発表だけというゆったりしたスケジュールです。第1セッション(6件)は学生発表、残りは一般研究者です。もちろん「自然言語処理」に特化した研究ばかりではありませんが、この分野でも機械学習は重要な手段になりつつあるようです。実際、いくつかの発表タイトルには、このことを示唆する以下のようなキーワードが含まれています。

    単語N-gramを用いた分析
    JSON形式テキストの自動生成
    実践医療用語を構成する語の意味分布
    BERTによる単語埋め込み表現の分散値
    教師データを必要としない感情分析
    BERT の Masked Language Model
    語義曖昧性解消
    日本語学術文技術文長単位解析
    『分類語彙表』の質的拡張

ワークショップの運営
    当初は、OSFのMeetings機能を使う予定でしたが、何らかの都合で、SLACKの掲示版(チャット形式)でポスター発表することになりました。ただし、発表者は、自分で開設したZOOMの部屋を用意すればそこでリアルタイムビデオ会話もできます。SLACKには要旨とポスター配置し、参加者とディスカッションします。質問したい人は、SLACKへログインする必要があります。(以下に小生のポスター例を示します。)


    しかしながら、いきなりポスターを見ただけでは質問もしづらいので、すでに予稿集(10ページ程度のフルペーパー)が公開されていますので、それを読んでから質問することになるでしょう。以下にプログラムと予稿があります。
(小生も12ページの予稿を書きました。セッション2のP2-5です。)

予稿原稿の情報系一般との違い
    予稿原稿の形式ですが、情報系の一般的な論文形式と異なる点がありましたので、それを簡単に示します。
  • 情報系では、一般にダブルカラムだが、ここではシングルカラム
  • 参考文献に文献番号を記さない(これにはちょっと戸惑いました!)
  • 予稿原稿の枚数は、4枚以上で制限なし(多くの人は、10枚前後のようです)

0 件のコメント:

コメントを投稿