研究課題/領域番号 |
21K00541
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分02060:言語学関連
|
研究機関 | 大学共同利用機関法人人間文化研究機構国立国語研究所 |
研究代表者 |
窪田 悠介 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 准教授 (60745149)
|
研究分担者 |
峯島 宏次 慶應義塾大学, 文学部(三田), 准教授 (80725739)
吉川 将司 東北大学, タフ・サイバーフィジカルAI研究センター, 助教 (80883470)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2022年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2021年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
|
キーワード | 統語解析 / 意味解析 / 統語変換 / CCG / 機械学習 / 深層学習 / 比較構文 / ハイブリッドCG / アノテーション / カテゴリ文法 / 統語変形 |
研究開始時の研究の概要 |
ハイブリッド CG のパーザを開発する。ハイブリッドCG はカテゴリ文法の一種であり、生成文法理論の中核的な概念である「統語変形」を簡潔に扱える点に特色を持つ。「変形」の概念を明示的に組み込んだパーザを開発することで、近年発展が目覚ましい、パーザなどの言語資源を用いた計算論的モデリングに基づく理論言語学研究を推し進めるための基盤資源を提供することを目指す。
|
研究実績の概要 |
本研究は、「統語変換」の概念に基づく理論言語学での研究の知見を活かして、自然言語処理研究において開発されたパーザ (具体的にはCCGパーザ) の性能を向上させることを目指すことを目的とするものである。この目的のために、CCGパーザにとって足りない情報を補うための機械学習のコンポーネントが必要となる。今年度は、昨年度作成したこのコンポーネントのための正解ラベルセットのアノテーション・データを用いて、機械学習によって未知のデータに対して正しくラベル付与ができるかを検証した。
具体的には、BCCWJから抽出した例文に必要な情報を手でアノテーションしたアノテーション・データを正解セットと評価セットに分割し、固有名認識のモデルと同構成の機械学習モデル (東北大から提供されている日本語BERTモデルをfine-tuningしたもの) を用いて比較文の意味に関わる情報のラベル (比較句、対応する程度述語、比較対象の表現の三者) を予測する実験を行った。結果は言語処理学会の年次大会の論文で報告した。
比較的単純な手法で、モデルが未知の文に対して目的とするアノテーション情報を実際に機械学習である程度正確に当てることができることを確認できた。この成果に基づいて、最終年度である来年度は、未知のデータを統語解析し、意味情報ラベルを予測する機械学習モデルの出力と組み合わせて論理式を出力するパイプラインを実際に構築することを目指す。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
概ね計画書に書いたとおりの順序で順調に研究が進んでいる。
|
今後の研究の推進方策 |
本研究で構築するシステムでは、設計上、(1) CCGパーザ、(2) 高次の意味的対応関係の解析器、(3)ルールベースで書いた、(1)と(2)を組み合わせて正しい意味表示を得るためのパイプラインの三者のスムーズな連携が必須となる。(1) - (3)すべて、単体でもそれぞれ動作に癖があり、またそれぞれの接合部分にも複雑さがある。最終年度である3年目は、年度の早い段階から、システム全体の動作を最適化させる方略を具体的に考える作業に注力する。また、アノテーション・データは、BCCWJのライセンスを持っている研究者に対して復元可能な形で提供する予定である。このための作業も最終年度に行う。
|