テクストの数理的モデリングと、数理モデルを通したテクストらしさの解明への挑戦

研究課題

研究課題/領域番号	20J22697
研究種目	特別研究員奨励費
配分区分	補助金
応募区分	国内
審査区分	小区分61030:知能情報学関連
研究機関	東北大学
研究代表者	栗林樹生東北大学, 情報科学研究科, 特別研究員(DC1)
研究期間 (年度)	2020-04-24 – 2023-03-31
研究課題ステータス	完了 (2021年度)
配分額 *注記	2,800千円 (直接経費: 2,800千円) 2021年度: 900千円 (直接経費: 900千円) 2020年度: 1,000千円 (直接経費: 1,000千円)
キーワード	自然言語処理 / 計算心理言語学 / 深層学習 / 人工知能 / 認知科学 / ニューラルネットワーク
研究開始時の研究の概要	言語処理技術の応用として，文の流暢さの自動評価があげられる．言語処理では一文を単位とした評価が主流であるが，日本語の「は」と「が」の使い分けなどに始まり，テクスト (文章) のレベルで議論される自然さの観点は数多く存在する．このようなテクストのレベルの自然さについて，言語処理システムが妥当に判断可能であるか明らかではない．本研究では，テクストらしさの観点から言語処理システムの分析・改良を行い，更には，超大規模データで学習したテクスト数理モデルを通して，テクストらしさに関する知見の帰納的な発見を試みる．テクストの持つ性質として，情報体系，主題体系，結束性，談話構造などに焦点を当てる予定である．
研究実績の概要	昨年度に引き続き，ヒトがテクストを読む際の逐次的処理のモデルについて,自然言語処理分野の技術を活用して探求した．昨年度の研究では，工学的に用いられる大規模言語モデルとヒトの文処理の間に乖離を確認していた．今年度は，心理言語学分野の知見と紐付けながら，この乖離を埋める方法について調査した．本課題について一定の知見が得られており，おおむね順調に研究が進んでいる．当初の計画では，テクスト（複数の文からなる文章）レベルの処理について焦点を当てる予定であったが，その手前の段階として一文ごとの処理に着目した場合にも，ヒトと工学的モデルの間で乖離が生じることが分かった．これを踏まえ，今年度は文レベルの処理に重きをおいた研究となった．並行して文章レベルの処理についても，主題化や省略といった観点について，ヒトと言語モデルの振る舞いを対照させる分析を行ってきた．今年度の研究成果については国内最大規模の学会（自然言語処理学会第28回年次大会）で発表した．今後さらに国際学会への投稿も予定している．また，昨年度の研究成果について当該分野で最も権威ある国際学会（ACL2021）で発表を行った．これらの研究は，心理言語学的な視点からは，ヒトの言語処理の数理的モデルの解明と位置づけられる一方，工学的な視点からはブラックボックスな機械の言語処理の機序を，ヒトと照らし合わせて分析する営みとも捉えられる．工学的な言語処理モデルの分析に関連して，大規模言語モデルをホワイトボックス化する研究や，これらのモデルの説明性を向上させる研究にも共著者として関わった（TACL2021，EMNLP2021，自然言語処理学会第28回年次大会受賞）．
現在までの達成度 (段落)	翌年度、交付申請を辞退するため、記入しない。
今後の研究の推進方策	翌年度、交付申請を辞退するため、記入しない。

報告書

(2件)

2021 実績報告書
2020 実績報告書

研究成果
(14件)

すべて 2022 2021 2020 その他

すべて雑誌論文 (4件) (うち査読あり 4件、オープンアクセス 4件) 学会発表 (9件) (うち国際学会 1件) 備考 (1件)

[雑誌論文] Lower Perplexity is Not Always Human-Like2021
- 著者名/発表者名
  Kuribayashi Tatsuki、Oseki Yohei、Ito Takumi、Yoshida Ryo、Asahara Masayuki、Inui Kentaro
- 雑誌名
  
  Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)
  
  巻: －ページ: 5203-5217
- DOI
  10.18653/v1/2021.acl-long.405
- 関連する報告書
  2021 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Incorporating Residual and Normalization Layers into Analysis of Masked Language Models2021
- 著者名/発表者名
  Kobayashi Goro、Kuribayashi Tatsuki、Yokoi Sho、Inui Kentaro
- 雑誌名
  
  Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing
  
  巻: - ページ: 4547-4568
- DOI
  10.18653/v1/2021.emnlp-main.373
- 関連する報告書
  2021 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Language Models as an Alternative Evaluator of Word Order Hypotheses: A Case Study in Japanese2020
- 著者名/発表者名
  Tatsuki Kuribayashi, Takumi Ito, Jun Suzuki, Kentaro Inui
- 雑誌名
  
  Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics
  
  巻: 1 ページ: 488-504
- DOI
  10.18653/v1/2020.acl-main.47
- 関連する報告書
  2020 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Langsmith: An Interactive Academic Text Revision System2020
- 著者名/発表者名
  Takumi Ito, Tatsuki Kuribayashi, Masatoshi Hidaka, Jun Suzuki and Kentaro Inui
- 雑誌名
  
  In proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP-2020, system demonstration track)
  
  巻: - ページ: 216-226
- DOI
  10.18653/v1/2020.emnlp-demos.28
- 関連する報告書
  2020 実績報告書
- 査読あり / オープンアクセス
[学会発表] ニューラル言語モデルの過剰な作業記憶2022
- 著者名/発表者名
  栗林樹生
- 学会等名
  言語処理学会第28回年次大会
- 関連する報告書
  2021 実績報告書
[学会発表] Transformerにおけるフィードフォワードネットの作用2022
- 著者名/発表者名
  小林悟郎
- 学会等名
  言語処理学会第28回年次大会
- 関連する報告書
  2021 実績報告書
[学会発表] 情報量に基づく日本語項省略の分析.2022
- 著者名/発表者名
  石月由紀子
- 学会等名
  言語処理学会第28回年次大会
- 関連する報告書
  2021 実績報告書
[学会発表] Lower Perplexity is Not Always Human-Like2021
- 著者名/発表者名
  Tatsuki Kuribayashi
- 学会等名
  59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] 予測の正確な言語モデルがヒトらしいとは限らない2021
- 著者名/発表者名
  栗林樹生, 大関洋平, 伊藤拓海, 吉田遼，浅原正幸, 乾健太郎
- 学会等名
  言語処理学会第27回年次大会
- 関連する報告書
  2020 実績報告書
[学会発表] 日本語の読みやすさに対する情報量に基づいた統一的な解釈2021
- 著者名/発表者名
  栗林樹生, 大関洋平, 伊藤拓海, 吉田遼，浅原正幸, 乾健太郎
- 学会等名
  言語処理学会第27回年次大会
- 関連する報告書
  2020 実績報告書
[学会発表] Langsmith: 人とシステムの協働による論文執筆2021
- 著者名/発表者名
  伊藤拓海, 栗林樹生, 日高雅俊, 鈴木潤, 乾健太郎
- 学会等名
  言語処理学会第27回年次大会
- 関連する報告書
  2020 実績報告書
[学会発表] 人と言語モデルが捉える文の主題2021
- 著者名/発表者名
  藤原吏生, 栗林樹生, 乾健太郎
- 学会等名
  言語処理学会第27回年次大会
- 関連する報告書
  2020 実績報告書
[学会発表] Transformerの文脈を混ぜる作用と混ぜない作用2021
- 著者名/発表者名
  小林悟郎, 栗林樹生, 横井祥, 乾健太郎
- 学会等名
  言語処理学会第27回年次大会
- 関連する報告書
  2020 実績報告書
[備考] 言葉を処理するAIは人のように「読み滞る」か高性能なAIと人の認知の間に乖離を確認
- URL
  https://www.tohoku.ac.jp/japanese/2021/08/press20210819-03-ai.html
- 関連する報告書
  2021 実績報告書

テクストの数理的モデリングと、数理モデルを通したテクストらしさの解明への挑戦

研究代表者

栗林 樹生 東北大学, 情報科学研究科, 特別研究員(DC1)

2,800千円 (直接経費: 2,800千円)

報告書

研究成果

[雑誌論文] Lower Perplexity is Not Always Human-Like2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Incorporating Residual and Normalization Layers into Analysis of Masked Language Models2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Language Models as an Alternative Evaluator of Word Order Hypotheses: A Case Study in Japanese2020

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Langsmith: An Interactive Academic Text Revision System2020

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] ニューラル言語モデルの過剰な作業記憶2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Transformerにおけるフィードフォワードネットの作用2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 情報量に基づく日本語項省略の分析.2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Lower Perplexity is Not Always Human-Like2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 予測の正確な言語モデルがヒトらしいとは限らない2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 日本語の読みやすさに対する情報量に基づいた統一的な解釈2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Langsmith: 人とシステムの協働による論文執筆2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 人と言語モデルが捉える文の主題2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Transformerの文脈を混ぜる作用と混ぜない作用2021

著者名/発表者名

学会等名

関連する報告書

[備考] 言葉を処理するAIは人のように「読み滞る」か 高性能なAIと人の認知の間に乖離を確認

URL

関連する報告書

栗林樹生東北大学, 情報科学研究科, 特別研究員(DC1)

[備考] 言葉を処理するAIは人のように「読み滞る」か高性能なAIと人の認知の間に乖離を確認