2021 Fiscal Year Research-status Report
脳科学・認知科学による人間に近いモデルに基づく日本語話し言葉解析器の構築と検証
Project/Area Number |
21K18115
|
Research Institution | Shizuoka University |
Principal Investigator |
狩野 芳伸 静岡大学, 情報学部, 准教授 (20506729)
|
Co-Investigator(Kenkyū-buntansha) |
酒井 邦嘉 東京大学, 大学院総合文化研究科, 教授 (10251216)
福井 直樹 上智大学, 言語科学研究科, 教授 (60208931)
|
Project Period (FY) |
2021-07-09 – 2024-03-31
|
Keywords | 自然言語処理 / 脳科学 / 理論言語学 |
Outline of Annual Research Achievements |
本研究の目標は、話し言葉に着目し、脳科学の知見を導入したより人間に近い言語処理モデルを構築、話し言葉解析器を実装することである。 言語野には「文法・読解・音韻・単語」から成る4つの言語中枢が同定されている。また、分担者(酒井)らの研究で文法関連ネットワークは少なくとも3つあることが明らかとなっている。機能的MRI(fMRI)などによる脳機能計測と機能結合(functional connectivity)の解析により、これら3つの脳内ネットワークがどのように融合されているかを明らかにする。fMRI実験の課題は、分担者(福井)を中心に、理論言語学の知見に基づきデザインする。脳の言語情報処理では、書き言葉の視覚入力は話し言葉の聴覚入力と明確に分離しているが、文法処理と意味処理においては両者が完全に重なると予想されるため、入力情報を統合した言語中枢の動作原理を明らかにできる。分担者(酒井・福井)の共同研究により文法中枢の動作原理が既に示されているので、残る意味処理の部分を明らかにする。最新の深層学習モデルの知見を取り入れつつ、これら動作原理に基づく新たな言語処理モデルを構築する。 本年度は採択以降数か月の初年度期間であったが、そのための第一歩として、自然言語処理・脳科学・理論言語学の三者の視点から情報交換と議論を行い、特に自然言語処理分野でベンチマークに利用されている既存のアノテーション付きコーパスについて、また近年性能向上が報告されている文解析・文生成の深層学習モデルについて検討を行い、三者の接点としてフォーカスし機能的MRIによる実験の対象とすべき言語現象を絞り込んだ。また、自然言語処理側からのアプローチとして、いくつかの深層学習モデルにおける構文解析時のスタックメモリ利用について検証実験を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度は採択以降数か月の初年度期間であったが、そのための第一歩として、自然言語処理・脳科学・理論言語学の三者の視点から情報交換と議論を行い、特に自然言語処理分野でベンチマークに利用されている既存のアノテーション付きコーパスについて、また近年性能向上が報告されている文解析・文生成の深層学習モデルについて検討を行い、三者の接点としてフォーカスし機能的MRIによる実験の対象とすべき言語現象を絞り込んだ。また、自然言語処理側からのアプローチとして、いくつかの深層学習モデルにおける構文解析時のスタックメモリ利用について検証実験を行った。これらにより、次年度に向けた準備が十分に進行した。
|
Strategy for Future Research Activity |
人間同様の制約を課し人間同様に失敗する、より人間に近い言語処理モデルに基づく話し言葉解析器の実装と、その訓練評価のためのアノテーション付きコーパスの作成を行う。また、fMRI実験に向けた実験タスク設計を進める。 具体的には、前年度の議論を踏まえ、脳科学実験と紐づけ得る特定の言語現象について、異なる深層学習モデルの振る舞いを比較し、各モデルの特定のアーキテクチャの影響を分析する。 さらに、スタックメモリの利用を含めたいくつかの観点から言語モデルの設計と実装を進め、実験で検証すべきアーキテクチャを絞り込む。
|
Causes of Carryover |
コロナ禍のため、旅費を中心に当初見込みよりも執行額が少なかった。次年度は出張等の緩和が見込まれるため、旅費や実験にかかる費用の増加を見込んでいる。
|