研究課題/領域番号 |
19J21913
|
研究機関 | 東北大学 |
研究代表者 |
赤間 怜奈 東北大学, 情報科学研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2019-04-25 – 2022-03-31
|
キーワード | 自然言語処理 / 計算言語学 |
研究実績の概要 |
1年目にあたる本年度は,発話スタイルに関する人間の認識と振る舞いの計算機言語学的解明に焦点をあてた研究に着手した.まず始めに,日本語および英語を対象として,世界中に存在する研究用途で利用可能な人間の発話に関する多様なデータを大規模に収集し,収集した大規模データを統計的な分析を通して発話スタイルの表出に関する調査を開始した. 収集した大規模データを調査する過程で,映画字幕などの「対話データ(ある人物の発話とそれに対する別の人物の応答が連なる形式のデータ)」は特に発話のスタイルが顕著に表出していることがわかった.しかしその一方で,これらのデータには対話として明らかに許容できない低品質な発話-応答の連なり(「ノイズ」と呼ぶ)がかなりの割合で含まれており,この状態のデータを分析対象としても正しく意味のある統計情報が得られないと結論付けるに至った. そこで,まずはこのような対話データのノイズ問題の解決がひとつの重要な方向性であると考え,これを実現するするための研究に取り組んだ.この方向性は,当初の計画にこそ含まれていないが研究課題の遂行のためには解決すべき課題であり,さらに対話データ中のノイズを効果的に取り除く方法論が現状確立していない自然言語処理分野においても分野の進展に大きく貢献しうる重要度の高い研究と言える.本年度(および申請時点から採用までの準備期間も含めた期間)の研究成果として,対話データに含まれる低品質な発話--応答ペアを検知・除外することを目的として,各発話--応答ペアに対し対話としての品質を算出する手法を提案した.提案法が算出したスコアは,人間の主観と相関を持つことが実証された.本成果は,自然言語処理分野の国内最大規模の学会で発表した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度までの研究成果でノイズを多く含む対話データを高品質化するためのひとつの方法論が確立しつつあり,この方法論の適応により発話スタイルの調査のために収集した大規模対話データについても十分な高品質化を実現できれば,改めてこれらの高品質な対話データを対象とした統計的分析を進めることが可能となる.したがって,今年度の研究活動は,人間による発話スタイルの認識を解明しこれをを実現する計算モデルを構築するという当初の目的を達成する過程に位置するものであり,研究課題はおおむね順調に進捗していると言える.
|
今後の研究の推進方策 |
今後は,これまでの研究成果を利用して大規模対話データのノイズ問題に対処した後,当初の計画に従い,データ駆動に獲得したスタイルに関する特徴が人間の直観的な認識とどのように関連するかを調査する.これに加え,計算モデルの設計に関しても検討を進める予定である.
|