研究課題/領域番号 |
19J21913
|
研究種目 |
特別研究員奨励費
|
配分区分 | 補助金 |
応募区分 | 国内 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 東北大学 |
研究代表者 |
赤間 怜奈 東北大学, 情報科学研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2019-04-25 – 2022-03-31
|
研究課題ステータス |
採択後辞退 (2021年度)
|
配分額 *注記 |
2,800千円 (直接経費: 2,800千円)
2021年度: 900千円 (直接経費: 900千円)
2020年度: 900千円 (直接経費: 900千円)
2019年度: 1,000千円 (直接経費: 1,000千円)
|
キーワード | 自然言語処理 / 計算言語学 |
研究開始時の研究の概要 |
発話のコンテンツ(何を伝えるか)だけでなくスタイル(どう表現するか)を考慮することは.言語活動における円滑な意思疎通のための重要な要素である.本研究の目的は,人間の発話スタイルの認識を計算によって実現することにあり,スタイルを表す計算モデルの構築を目指す.まず,スタイルの概念を数理的に解き明かすことから研究を始める.大量の発話データを統計的に分析し,この結果が人間のスタイルの認識とどのように関連するかを調査する.次に,調査結果を活用してスタイルの計算の枠組みを設計し,モデルを構築する.具体的には,数理的に説明可能となったスタイルの概念を,高次元連続空間上の表現としてモデル化することを考える.
|
研究実績の概要 |
本年度は、前年度に引き続き、対話データ中のノイズを自動で除去するための効果的な方法論の確立に取り組んだ。本年度の大きな研究成果として、対話データ中に含まれる低品質な発話-応答ペアを自動で検出するための方法論を確立したことが挙げられる。自然言語処理だけでなく社会言語学等の周辺分野も対象とした広域的な文献調査、および実データに基づくデータ科学的な観察と分析に基づき、発話系列において、発話間の表層的な接続の度合いと意味内容の関連の度合いが大きいものほど対話として成立する可能性が高い、すなわち、品質の良い発話-応答ペアである可能性が高いということを明らかにした。その上で、表層的な接続性については統計的機械翻訳の句アライメント抽出技術を、意味内容の関連性については単語埋め込み技術を利用してそれぞれスコア関数としてモデル化し、これらを組み合わせることで発話-応答ペアの自動品質評価を可能にした。提案した方法論の有用性については、クラウドソーシングを用いた人手評価により、提案法を用いて算出したスコアが発話-応答ペアの品質評価の観点で人間の主観と概ね相関することを実証した。本研究成果は、言語処理分野の権威ある最難関国際会議のひとつである Conference on Empirical Methods in Natural Language Processing (EMNLP 2020) に採択され、口頭発表をおこなった。また、関連する内容を人工知能学会全国大会でも発表し、全国大会学生奨励賞を受賞した。本年度の研究成果は、研究課題の実現に向けて研究を確実に前進させたと同時に、当該分野においては国内外でその学術的貢献が高く評価されている。
|
現在までの達成度 (段落) |
翌年度、交付申請を辞退するため、記入しない。
|
今後の研究の推進方策 |
翌年度、交付申請を辞退するため、記入しない。
|