2020 Fiscal Year Annual Research Report
テクストの数理的モデリングと、数理モデルを通したテクストらしさの解明への挑戦
Project/Area Number |
20J22697
|
Research Institution | Tohoku University |
Principal Investigator |
栗林 樹生 東北大学, 情報科学研究科, 特別研究員(DC1)
|
Project Period (FY) |
2020-04-24 – 2023-03-31
|
Keywords | 自然言語処理 / 認知科学 / 深層学習 / 人工知能 / ニューラルネットワーク |
Outline of Annual Research Achievements |
本研究課題の目標を「人がテクスト (文章) を処理する際の計算モデルの解明」と明確化し,人のテクスト処理について理解を深める研究に取り組んだ.また本研究課題では,冠詞の有無や省略の頻度といったテクストのもつ性質が大きく異なる英語と日本語に焦点を当て,言語普遍的な一般性を有する知見の提供を試みた. 一つ目の主要な成果として,学習条件の異なる様々な言語モデルの挙動と人の言語処理活動データ (読み時間) を比較し,構成論的なアプローチにより人の言語処理に対して洞察を得た.既存研究のほとんどが英語に焦点を当てているのに対し,本研究では日英言語横断的な検証を行い,例えば「工学的な性能の高いモデルほど認知的妥当性も高い」という既存の知見が言語横断的一般性を欠くといった発見があった.本知見は,どのような言語モデルの挙動をより詳細に分析すべきかという観点で,本研究課題の遂行のみならず分野全体の方針に関わる重要なものであり,国内学会での受賞,最難関国際会議への採択など国内外で評価を得た. 二つ目の主要な成果として,日本語のテクスト処理について,情報理論に基づく多角的な分析を行い,「人は先読みをしながら文章を読み,予想できない情報が登場すると読み負荷が増す」という英語で報告されてきた仮説が日本語でも妥当であることを支持した.本仮説は,自然言語処理の道具立てによって言語・人を分析していく際の拠り所となるものであり,本知見を踏まえた今後の発展が期待できる.また,テクストらしさの一側面である主題構造の観点では言語モデルが人同様の一般化を行えていない可能性があるといった知見も得られた.人らしい一般化を助長するにはどのような帰納バイアスや言語モデルの学習が必要かといった今後の検証も期待できる.これらの成果は国内会議で発表し,一部国際会議にも投稿中である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
一年目の目標は概ね達成し,成果については国内会議での受賞,最難関国際会議への採択などの評価も得られた.言語モデルを分析し言語について知見を還元するという本研究課題全体の目標達成にも近づいており,特に日本語に関しては,記述的に観察されていた現象を情報理論の観点から統一的に解釈できる可能性を提示するなど,二年目・三年目の研究に対する準備も進んだ.さらに,言語モデルのライティング支援への活用など,応用的な出口を見据えた研究も進んだ. 一方で,初年度目の研究や分野の動向を踏まえ,当初の研究の方法論や検証すべき事柄について改善点も見えてきた.例えば,当初は特定の学習済み言語モデルの出力や内部表現を分析する想定であったが,学習データ・モデル構造・目的関数といった計算モデルを訓練する一連の系を活用した仮説の検証という方向がより妥当であると考えた.現に一年目の成果として,この系のデザインと獲得されるモデルの認知的妥当性に関する法則性についても知見を提供している. また,言語モデルがテクスト特有の現象を捉えているかという点については,当初,情報体系・主題体系・結束性・談話構造の四要素に焦点を当てる予定であったが,現状は情報体系・主題体系の二要素に焦点を当てている.特に主題体系についてはクラウドソーシングを用いたデータの作成などが順調に進んでいる.まずは現在研究を進めている二要素に注力し,そこで得たノウハウを生かして包括的な分析を行う方向に研究を進めていきたい.
|
Strategy for Future Research Activity |
二年目の研究計画では,一年目で得られた知見に応じて,(i)モデルの改善,または (ii)言語モデルのより詳細な分析のいずれかに重きを置くこととしていた.言語モデルの性質について,想定以上に人の逐次的なテクスト処理と類似した傾向が観察されたことや,分野全体において言語モデルやテクスト生成技術の進展が著しく次々と新たなモデルが提案されている状況を踏まえ,本研究課題二年目ではモデル間の包括的な分析,知見の整理を優先することとしたい.また,一年目の成果を通して,英語と日本語における性質の顕著な違いも観察された.より多くの言語を対象とし,情報理論の観点から言語の普遍的な原則を解明するという方向も視野に入れたい.
|