研究課題/領域番号 |
22K19818
|
研究種目 |
挑戦的研究(萌芽)
|
配分区分 | 基金 |
審査区分 |
中区分61:人間情報学およびその関連分野
|
研究機関 | 国立情報学研究所 |
研究代表者 |
相澤 彰子 国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
|
研究期間 (年度) |
2022-06-30 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
6,370千円 (直接経費: 4,900千円、間接経費: 1,470千円)
2023年度: 3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
2022年度: 2,990千円 (直接経費: 2,300千円、間接経費: 690千円)
|
キーワード | 文書理解 / 自然言語解析 / 言語モデル / 文書レイアウト / 視覚的言語理解 |
研究開始時の研究の概要 |
現在の自然言語処理は、入力単位としてトークンの並びである「文」または「文の集合」を想定している。しかし、現実の文書には、レイアウト構造や表示スタイルなどが混然一体となって埋め込まれ、読みを支援する「手がかり」として機能している。本課題では、人間が文書を読む際に利用するこのような手がかりを視覚的・構造的な特徴として抽出し、「文」の意味理解で活用する手法について研究する。
|
研究実績の概要 |
現在の自然言語処理は、入力単位としてトークンの並びである「文」または「文の集合」を想定している。しかし、現実の文書には、レイアウト構造や表示スタイルなどが混然一体となって埋め込まれ、読みを支援する「手がかり」として機能している。人間が文書を読む際には、視覚的な入力を通してこのような手がかりを即座に解読して、「文」の意味理解へとつなげていると考えられる。そこで本研究では、文書中に埋め込まれた非言語情報を抽出・活用するための文書解析手法を検討する。具体的には、(1)レイアウトされた文書やインタラクティブなメディア(ウェブ上のフォーム)などの文書全体、(2)文書中の非言語要素(数式など)と対応する説明文(3)言語音意味とは独立の編集的な属性(例:大文字・小文字の違い)の3つの文書構成要素に注目する。そして、これらを分析・モデル化することで、人間の可読性を高めたり、計算機の言語処理性能を向上したりするための手法を開発する。初年度である2022年度は、近年の大規模言語モデルの登場を踏まえて関連分野の調査を行うとともに、上記3つの研究課題に取り組んだ。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
(1)ブラウザ上で表示されるウェブ文書を対象として、画像、テキスト、ユーザアクションを統一的に扱うためのツールを構築して、データ収集およびモデル構築を行った。これに基づき予備的な評価を実施して口頭発表をした(Iki et al., 2023)。また、(2)複雑な談話構造をわかりやすく提示するインタフェースにかかわるものとして、数学定理証明の可読性向上に関する研究に取り組んで予備的な検討状況を口頭発表した(Tsurusaki et al., 2023)。さらに、(3)英語における大文字と小文字表記の違いに注目して、固有表現抽出タスクにおける影響を分析、データ増強による性能改善に取り組んで国際学会で発表予定である(Dao et al., 2023)。
|
今後の研究の推進方策 |
現在、モバイル端末やウェブブラウザを対象とした言語モデルが注目されはじめている。そこで当該分野の研究の最新動向について引き続き調査を行いつつ、2022年度で構築したプラットフォームを活用しながら手法の改善および評価タスクの設計に取り組む。また、複雑な木構造を持つ定理証明などの形式表現や専門的な内容を含むスライドなどを、可読性高く提示するための研究に取り組み、文書理解のための自然言語処理の今後の展開へと結びつける。
|