研究課題/領域番号 |
21K00541
|
研究機関 | 大学共同利用機関法人人間文化研究機構国立国語研究所 |
研究代表者 |
窪田 悠介 大学共同利用機関法人人間文化研究機構国立国語研究所, 理論・対照研究領域, 准教授 (60745149)
|
研究分担者 |
峯島 宏次 慶應義塾大学, 文学部(三田), 准教授 (80725739)
吉川 将司 東北大学, タフ・サイバーフィジカルAI研究センター, 助教 (80883470)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | 統語変換 / ハイブリッドCG / CCG / 意味解析 / 統語解析 / アノテーション |
研究実績の概要 |
本研究は、「統語変換」の概念に基づく理論言語学での研究の知見を活かして、自然言語処理研究において開発されたパーザ (具体的にはCCGパーザ) の性能を向上させることを目指すことを目的とするものである。この目的のために、CCGパーザにとって足りない情報を補うための機械学習のコンポーネントが必要となる。今年度は、このコンポーネントのための正解セットの人手でのアノテーションを進めた。 具体的には、日本語の比較文1000文程度に関して、BCCWJから抽出した例文を対象に、比較句、対応する程度述語、比較対象の表現の三者をアノテーションする作業を行った。また、CCGのパーズ結果とアノテーション結果を組み合わせて、比較文の意味表示を得るためのパイプラインを試作した。 研究計画書に記述したとおり、本研究では、CCGパーザの出力結果に対して統語変換に対応する操作をかけるための手がかりの情報として、高次の意味的対応関係のアノテーション情報を用いるという設計のシステムを構築することを目標としている。今年度構築したデータセットは、この、高次の意味的対応関係のアノテーション情報のための正解セットの人手での構築にあたり、本研究の要となるものである。 今年度の作業の結果、「高次の意味的対応関係のアノテーション情報が正しく推定できる」という条件が満たされれば、CCGパーザの出力結果と合わせておおむね正しい意味表示を得られることが確かめられた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
計画書に書いたとおりの順序で順調に研究が進んでいる。
|
今後の研究の推進方策 |
アノテーションのデータセットができたので、これを用いた機械学習のコンポーネントの作成を次年度以降進める予定である。また、本研究で構築するシステムでは、設計上、(1) CCGパーザ、(2) 高次の意味的対応関係の解析器、(3)ルールベースで書いた、(1)と(2)を組み合わせて正しい意味表示を得るためのパイプラインの三者のスムーズな連携が必須となる。(1)-(3)すべて、単体でもそれぞれ動作に癖があり、またそれぞれの接合部分にも複雑さがあるので、2年目は、なるべく早くシステム全体のプロトタイプを組んで、システム全体の動作を最適化させる方略を具体的に考える作業に注力する予定である。
|
次年度使用額が生じた理由 |
データセット構築のためのアノテータ謝金の一部に関連研究の経費を利用することができたので、当初の見積もりより人件費・謝金の額が少なくなった。データセットに関しては、次年度以降整理や拡充などが必要となることが見込まれるので、それに次年度使用額をあてる予定である。
|