研究課題/領域番号 |
19H01118
|
研究機関 | 東京工業大学 |
研究代表者 |
岡崎 直観 東京工業大学, 情報理工学院, 教授 (50601118)
|
研究分担者 |
荒牧 英治 奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (70401073)
|
研究期間 (年度) |
2019-04-01 – 2024-03-31
|
キーワード | 自然言語処理 / 意味解析 / 議論マイニング / SNS分析 / 知識獲得 |
研究実績の概要 |
常識的知識の自動獲得、およびその知識の活用に関して、事前学習済み言語モデルが学習の過程で獲得した関係知識を評価するタスクにおいて、モデル出力に対する確信度を考慮した選択的予測の設定を導入する研究を進めた。この選択的予測の設定では、知識問い合わせに対する予測結果の確信度を算出し、予測結果を出力するか否かを決定する。これにより、予測を行った事例に対する精度に加え、誤った予測を出力するリスクをどの程度低減できるかを考慮した評価が可能となる。評価実験により、実験では、特定の確信度指標の組み合わせが複数のデータセットで有効であり、さらに予測に直接用いた場合に予測精度そのものを改善できることが示された。本研究は、言語処理学会第28回年次大会において、委員特別賞を受賞した。 SNS上のテキストの意味解析技術の確立に関して、今年度前半はソーシャルメディア解析のための新しい日本語文法の開発を試みた。これは画像とテキストとの照応関係などの文法に組み込んだ挑戦的な文法であり、予備的なコーパス開発を構築した。今後、コーパスの大規模化、評価法、応用アプリケーションを議論しながら開発継続したいと考えている。また、今年度末から、現状のコーパスを変換して、ソーシャルメディアの解析に応用できる枠組みであるFuzzy NERの開発に着手した。 また、話し言葉やソーシャルメディア上などで散見される「大学行った」のような格助詞が省略された文に対する係り受け解析の研究を進めた。この研究では、格助詞の一部を人工的に省略した疑似訓練データを用い、係り受け解析精度の向上を狙った。既存の係り受け解析器との比較において、特に後者は格助詞の省略がない文の解析精度を維持したまま、省略文の解析精度を向上させることを確認した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
今年度は研究項目1「議論マイニングに必要な常識的知識の獲得」と研究項目3「自動獲得した常識的知識に基づいて推論するアーキテクチャの確立」を横断する研究を進め、言語処理学会第28回年次大会において、委員特別賞を受賞した。また、研究項目2「SNS上のテキストの意味解析技術の確立」では、SNSの特徴を活かして、画像とテキストの相互参照を考慮したコーパスの設計を行うとともに、意味解析技術としてFuzzy NERや助詞が省略された文の係り受け解析の研究を進めることができた。5年間の研究期間のうち、今年度がちょうど折り返しの年度となるが、研究項目1から3までコーパスの構築や新しい手法の開発などの研究を進め、残り2年間で成果をまとめていく目途が立っていることから、本研究課題はおおむね順調に進展していると評価している。
|
今後の研究の推進方策 |
常識的知識の自動獲得、およびその知識の活用に関して、引き続き大規模事前学習済み言語モデルを活用したテキスト解析技術の研究を進める。昨年度までの研究成果を国際会議論文やジャーナル論文としてまとめるとともに、議論マイニングに関する新しい手法の開発を進める。さらに、これまでに開発した新型コロナウイルスに関するコーパスを整理し、公開に向けた準備を進める。以上の取り組みをまとめながら、本研究による実社会の課題の解決に向けた応用を開拓する。 SNS上のテキストの意味解析技術では、ソーシャルメディアを解析する際の基本的な処理である固有表現認識(NER)において,より柔軟な枠組みを提案し,実証を行う.NERは境界が明確である固有名詞から発展したものであるが,現在のソーシャルメディアで扱われている表現では,厳密な境界を決めることが困難な場合もある.そこで,文を必ず1つの固有表現を含む単位に分割することを代替タスクとすることで,厳密な固有表現境界を必要としない認識方法を検証する.昨年度開発したコーパスとアノテーション仕様に基づき,本年度は,データ作成の負担を軽減度合いの調査,後段のタスクへの影響などを調査する課題に挑む.
|