研究課題/領域番号 |
18H03286
|
研究機関 | 京都大学 |
研究代表者 |
河原 大輔 京都大学, 情報学研究科, 准教授 (10450694)
|
研究分担者 |
笹野 遼平 名古屋大学, 情報学研究科, 准教授 (70603918)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | 言語理解 / 知識フレーム / 言内の意味 / 言外の意味 / 述語項構造 |
研究実績の概要 |
本研究課題は、超大規模テキスト集合から抽出、集約した大量の言語使用に言内・言外の意味を与えることによって、知識フレームを漸進的に獲得する。2019年度は2018年度に引き続き、言内(denotation)に関する知識獲得、言外(connotation)に関する知識獲得を行った。denotationに関する知識については、昨年度取り組んだ京大格フレームと英語版FrameNetの対応付けに引き続き、京大格フレームと日本語版FrameNetの対応付けに取り組んだ。具体的には、京大格フレームに含まれる用例情報と、日本語版FrameNetに含まれる注釈付き文から得られる用例情報の類似度を算出することで、京大格フレーム中の各フレームをFrameNetに対応付けた。この際、格交替や副助詞の性質を考慮し、注釈付き文に出現した用例の対応先となる格フレームの格の絞り込みを行うことで対応付け精度が向上することを示した。connotationに関する知識については、昨年度に設計したconnotation体系に基づき、格フレーム(イベント)に関する感情知識の獲得に取り組んだ。まず、感情状態を表す少数のシード語(「嬉しい」など)を用いて、大規模コーパスから「腰痛が治って嬉しかった」のような共起パターンから、イベントと感情のペアを抽出した。このペアを訓練データとして、汎用文脈言語モデルBERTに基づくニューラルネットワークモデルを学習した。このプロセスを繰り返すことによって、イベントに対して感情のタグ付けを行うという半教師有りの枠組みを構築した。評価実験により、3クラスの極性に対しては88%の精度でイベントを分類できることが分かった。また、テキスト解析・理解システムの開発に関して、数学文章題の解法に関する研究を行い、高精度なシステムを構築した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究計画に従い、2019年度に実施すべきことはおおむね実施することができたため、「おおむね順調に進展している。」と評価した。
|
今後の研究の推進方策 |
2020年度は、言内(denotation)に関する知識獲得、言外(connotation)に関する知識獲得を継続して行う。また、獲得した知識を用いたテキスト解析・理解システムの開発を行う。denotationに関する知識については、過去2年に引き続き、京大格フレームと日本語および英語FrameNetとの対応付けの精緻化に取り組む。さらに、これまでの分析を通して、京大格フレームは粒度が細かすぎる等の問題点があることが判明したことから、BERT等に代表される文脈依存の単語ベクトルを用いて格フレームの構築を行うことで、高品質な格フレームの自動構築にも取り組む。connotationに関する知識については、引き続き、格フレーム(イベント)に対して感情情報を付与する。これまでに半教師有りの枠組みを構築したが、そこでは、いくつかの種類のラベルなし事例を徐々に追加している。この追加の順番や、どの程度の質の事例まで追加するかについては明らかではないので、強化学習などを検討し、精度およびカバレッジの最適化を行う。また、上記で獲得したdenotation・connotation知識に基づくテキスト解析・理解システムの開発を進める。このシステムは、格の正規化などでは認識することができない意味の同一性や含意関係を捉えることができ、さらに感情・感覚などの言外の意味を推定することができる。
|