2012 Fiscal Year Annual Research Report
テキストの「読み方」モデルの構築と利用に関する研究
Project/Area Number |
23650076
|
Research Institution | National Institute of Informatics |
Principal Investigator |
相澤 彰子 国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
|
Keywords | 視線計測装置 / 読解行動 / テキスト理解 / 視線計測誤差 / 自然言語処理 / 言語インタフェース / 行動予測 / 文書構造理解 |
Research Abstract |
本研究では、「読む」という行為を、読み手の言語の理解や知識の獲得と対応付けて解析する技術の確立を目指す。具体的には、画面上に表示される文字情報(テキスト)から人間が情報を得る際の「読み方」を視線計測装置を用いて実際に測定して、テキストの意味や文脈と照合しながら分析・予測する手法を開発する。このような「読み方」のモデル化と測定を通して、対象テキストの計算言語的な解析結果と読み手の興味や理解の容易性とを対応付け、社会生活で不可欠な「読む」行為の支援へと結びつける。具体的には、(1)読み方モデルの構築と視線情報からの注視テキストの抽出、および、(2)視線情報に基づく人間の言語行動の分析、の2つの課題に取り組み、中核となる手法の確立を目指す。 本年度は、2番目の課題である「視線情報による人間の言語行動の分析」に焦点をあてて研究を進めた。まず視線のコーパスとして代表的なDundeeコーパスを用いて単語の読み飛ばしの予測モデルを学習し、品詞や頻度などの単語の言語的な特徴に加えて画面上の位置を考慮することで、予測の精度が高まることを示した。また、中国語におけるコンマ配置の予測では、読み手の視線の動きを人手で解析してルールを抽出することで、より優れたコンマ配置が提案できることを示した。さらに、視線解析を理解支援に結び付ける試みとして、言語特徴量・視線特徴量・読み手の属性の相互の関係を解析することで、読み手の注視する単語領域を予測する手法を提案した。実験では、40名の被験者を対象として視線データを収集して、提案手法の有効性を示すとともに、言語タスクや被験者による読み方の違いを考察した。
|
Research Products
(8 results)