実文書の理解と活用に向けた言語解析手法の深化

研究課題

研究課題/領域番号	22K19818
研究種目	挑戦的研究(萌芽)
配分区分	基金
審査区分	中区分61:人間情報学およびその関連分野
研究機関	国立情報学研究所
研究代表者	相澤彰子国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
研究期間 (年度)	2022-06-30 – 2024-03-31
研究課題ステータス	完了 (2023年度)
配分額 *注記	6,370千円 (直接経費: 4,900千円、間接経費: 1,470千円) 2023年度: 3,380千円 (直接経費: 2,600千円、間接経費: 780千円) 2022年度: 2,990千円 (直接経費: 2,300千円、間接経費: 690千円)
キーワード	文書理解 / 自然言語解析 / 言語モデル / 文書レイアウト / 視覚的言語理解
研究開始時の研究の概要	現在の自然言語処理は、入力単位としてトークンの並びである「文」または「文の集合」を想定している。しかし、現実の文書には、レイアウト構造や表示スタイルなどが混然一体となって埋め込まれ、読みを支援する「手がかり」として機能している。本課題では、人間が文書を読む際に利用するこのような手がかりを視覚的・構造的な特徴として抽出し、「文」の意味理解で活用する手法について研究する。
研究成果の概要	本研究では、文書構造や視覚情報を踏まえた自然言語処理手法についての検討に取り組んだ。具体的には、レイアウトされた文書やインタラクティブなウェブ上のフォームなどの文書構造、数式や数字などを含む文書中の非言語要素、テキストの編集的な属性（大文字・小文字の違い）の３つの文書構成要素に注目して、これらの分析やモデル化を提案して有効性を示した。また、自然言語処理分野の国際会議論文を対象として、フォントやレイアウトや図表やインライン数式を含む非言語情報をアノテーションタグの形でテキストに追加したXML形式の文書コーパスを構築した。
研究成果の学術的意義や社会的意義	自然言語処理の分野において、文書から自然言語処理ツールで解析可能な文を抽出する処理は、アドホックで自動化が困難な「前処理」とみなされ、従来はあまり注目されてこなかった。しかしながら、2022年における言語モデルの急速な進展により、当初目指していた本テーマの挑戦性が、訓練データと言語モデルの大規模化によって現実に解決可能な問題となってきた。文書AIが大きな注目を集める中で、本研究で提案したフレームワークや構築した資源は今後の研究に資することが期待される。

報告書

(3件)

2023 実績報告書研究成果報告書 ( PDF )
2022 実施状況報告書

研究成果
(6件)

すべて 2023

すべて雑誌論文 (6件) (うち国際共著 1件、査読あり 4件、オープンアクセス 4件)

[雑誌論文] Predicting Numerals in Text Using Nearest Neighbor Language Models2023
- 著者名/発表者名
  Taku Sakamoto, Akiko Aizawa
- 雑誌名
  
  Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (ACL)
  
  巻: - ページ: 4795-4809
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Evaluating the Effect of Letter Case on Named Entity Recognition Performance2023
- 著者名/発表者名
  Tuan An Dao, Akiko Aizawa
- 雑誌名
  
  Proceedings of the International Conference on Applications of Natural Language to Information Systems (NLDB 2023),
  
  巻: - ページ: 588-598
- DOI
  10.1007/978-3-031-35320-8_45
- ISBN
  9783031353192, 9783031353208
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Solving Label Variation in Scientific Information Extraction via Multi-Task Learning2023
- 著者名/発表者名
  Dong Pham, Xanh Ho, Quang Thuy Ha, Akiko Aizawa
- 雑誌名
  
  Proceedings of the 37th Pacific Asia Conference on Language, Information and Computation (PACLIC 37)
  
  巻: - ページ: 243-256
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] ディスプレイ操作記録ツールの提案と有効性の検証2023
- 著者名/発表者名
  壹岐太一, 増本雄斗, 相澤彰子
- 雑誌名
  
  言語処理学会第29回年次大会(NLP2023)
  
  巻: -
- 関連する報告書
  2022 実施状況報告書
- オープンアクセス
[雑誌論文] Effect of Letter Case on Named Entity Recognition Performance2023
- 著者名/発表者名
  Tuan An Dao, Akiko Aizawa
- 雑誌名
  
  Proceedings of The 28th International Conference on Natural Language and Information Systems
  
  巻: -
- 関連する報告書
  2022 実施状況報告書
- 査読あり
[雑誌論文] 文芸的プログラミングによる形式的証明の可読性向上2023
- 著者名/発表者名
  津留﨑堅章, 相澤彰子
- 雑誌名
  
  情報アクセシビリティをめぐる諸問題に関する研究集会
  
  巻: -
- 関連する報告書
  2022 実施状況報告書

実文書の理解と活用に向けた言語解析手法の深化

研究代表者

相澤 彰子 国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)

6,370千円 (直接経費: 4,900千円、間接経費: 1,470千円)

報告書

研究成果

[雑誌論文] Predicting Numerals in Text Using Nearest Neighbor Language Models2023

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Evaluating the Effect of Letter Case on Named Entity Recognition Performance2023

著者名/発表者名

雑誌名

DOI

ISBN

関連する報告書

[雑誌論文] Solving Label Variation in Scientific Information Extraction via Multi-Task Learning2023

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] ディスプレイ操作記録ツールの提案と有効性の検証2023

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Effect of Letter Case on Named Entity Recognition Performance2023

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 文芸的プログラミングによる形式的証明の可読性向上2023

著者名/発表者名

雑誌名

関連する報告書

相澤彰子国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)