研究課題/領域番号 |
20J22697
|
研究種目 |
特別研究員奨励費
|
配分区分 | 補助金 |
応募区分 | 国内 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 東北大学 |
研究代表者 |
栗林 樹生 東北大学, 情報科学研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2020-04-24 – 2023-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
2,800千円 (直接経費: 2,800千円)
2021年度: 900千円 (直接経費: 900千円)
2020年度: 1,000千円 (直接経費: 1,000千円)
|
キーワード | 自然言語処理 / 計算心理言語学 / 深層学習 / 人工知能 / 認知科学 / ニューラルネットワーク |
研究開始時の研究の概要 |
言語処理技術の応用として,文の流暢さの自動評価があげられる.言語処理では一文を単位とした評価が主流であるが,日本語の「は」と「が」の使い分けなどに始まり,テクスト (文章) のレベルで議論される自然さの観点は数多く存在する.このようなテクストのレベルの自然さについて,言語処理システムが妥当に判断可能であるか明らかではない.本研究では,テクストらしさの観点から言語処理システムの分析・改良を行い,更には,超大規模データで学習したテクスト数理モデルを通して,テクストらしさに関する知見の帰納的な発見を試みる.テクストの持つ性質として,情報体系,主題体系,結束性,談話構造などに焦点を当てる予定である.
|
研究実績の概要 |
昨年度に引き続き,ヒトがテクストを読む際の逐次的処理のモデルについて,自然言語処理分野の技術を活用して探求した.昨年度の研究では,工学的に用いられる大規模言語モデルとヒトの文処理の間に乖離を確認していた.今年度は,心理言語学分野の知見と紐付けながら,この乖離を埋める方法について調査した.本課題について一定の知見が得られており,おおむね順調に研究が進んでいる. 当初の計画では,テクスト(複数の文からなる文章)レベルの処理について焦点を当てる予定であったが,その手前の段階として一文ごとの処理に着目した場合にも,ヒトと工学的モデルの間で乖離が生じることが分かった.これを踏まえ,今年度は文レベルの処理に重きをおいた研究となった.並行して文章レベルの処理についても,主題化や省略といった観点について,ヒトと言語モデルの振る舞いを対照させる分析を行ってきた. 今年度の研究成果については国内最大規模の学会(自然言語処理学会第28回年次大会)で発表した.今後さらに国際学会への投稿も予定している.また,昨年度の研究成果について当該分野で最も権威ある国際学会(ACL2021)で発表を行った.これらの研究は,心理言語学的な視点からは,ヒトの言語処理の数理的モデルの解明と位置づけられる一方,工学的な視点からはブラックボックスな機械の言語処理の機序を,ヒトと照らし合わせて分析する営みとも捉えられる.工学的な言語処理モデルの分析に関連して,大規模言語モデルをホワイトボックス化する研究や,これらのモデルの説明性を向上させる研究にも共著者として関わった (TACL2021,EMNLP2021,自然言語処理学会第28回年次大会受賞).
|
現在までの達成度 (段落) |
翌年度、交付申請を辞退するため、記入しない。
|
今後の研究の推進方策 |
翌年度、交付申請を辞退するため、記入しない。
|