研究課題/領域番号 |
22K19818
|
研究種目 |
挑戦的研究(萌芽)
|
配分区分 | 基金 |
審査区分 |
中区分61:人間情報学およびその関連分野
|
研究機関 | 国立情報学研究所 |
研究代表者 |
相澤 彰子 国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
|
研究期間 (年度) |
2022-06-30 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
6,370千円 (直接経費: 4,900千円、間接経費: 1,470千円)
2023年度: 3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
2022年度: 2,990千円 (直接経費: 2,300千円、間接経費: 690千円)
|
キーワード | 文書理解 / 自然言語解析 / 言語モデル / 文書レイアウト / 視覚的言語理解 |
研究開始時の研究の概要 |
現在の自然言語処理は、入力単位としてトークンの並びである「文」または「文の集合」を想定している。しかし、現実の文書には、レイアウト構造や表示スタイルなどが混然一体となって埋め込まれ、読みを支援する「手がかり」として機能している。本課題では、人間が文書を読む際に利用するこのような手がかりを視覚的・構造的な特徴として抽出し、「文」の意味理解で活用する手法について研究する。
|
研究成果の概要 |
本研究では、文書構造や視覚情報を踏まえた自然言語処理手法についての検討に取り組んだ。具体的には、レイアウトされた文書やインタラクティブなウェブ上のフォームなどの文書構造、数式や数字などを含む文書中の非言語要素、テキストの編集的な属性(大文字・小文字の違い)の3つの文書構成要素に注目して、これらの分析やモデル化を提案して有効性を示した。また、自然言語処理分野の国際会議論文を対象として、フォントやレイアウトや図表やインライン数式を含む非言語情報をアノテーションタグの形でテキストに追加したXML形式の文書コーパスを構築した。
|
研究成果の学術的意義や社会的意義 |
自然言語処理の分野において、文書から自然言語処理ツールで解析可能な文を抽出する処理は、アドホックで自動化が困難な「前処理」とみなされ、従来はあまり注目されてこなかった。しかしながら、2022年における言語モデルの急速な進展により、当初目指していた本テーマの挑戦性が、訓練データと言語モデルの大規模化によって現実に解決可能な問題となってきた。文書AIが大きな注目を集める中で、本研究で提案したフレームワークや構築した資源は今後の研究に資することが期待される。
|