研究課題/領域番号 |
16H02865
|
研究機関 | 東京工業大学 |
研究代表者 |
徳永 健伸 東京工業大学, 情報理工学院, 教授 (20197875)
|
研究分担者 |
西川 仁 東京工業大学, 情報理工学院, 助教 (00765026)
相澤 彰子 国立情報学研究所, 大学共同利用機関等の部局等, 教授 (90222447)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 自然言語処理 / コーパスアノテーション / 視線情報 |
研究実績の概要 |
初年度は,セグメント課題の具体例として固有表現の意味カテゴリ同定課題,リンク課題の具体例として日本語述語項構造解析課題をとりあげ,それぞれ収集したアノテータの振舞いデータを分析した結果,いずれの課題についても人間のアノテータが統語的な依存情報を有力な手掛りとして利用する傾向にあることを明らかにした. この分析を元に日本語述語項構造解析課題において,解析モデルのパラメータ推定をおこなう際にアノテータの視線情報を利用し,テキスト内の言語的な情報のみだけでなくアノテーション時のアノテータの視線から得られる情報を取り入れることで解析の精度を向上させる手法を提案した.アノテータの特定の述語に対するガ格をアノテーションする最中の視線を観察してみると,最終的な判断をするまでに様々な候補を見ていることがわかる.最終的な判断において選ばれなかった候補は,そのテキストにおける対象述語の項ではないものの,頻繁に注視していた候補については他のテキストにおいて同じ述語の項となる可能性がある.そこでそのような候補をニアミス候補と考え,ランキング学習の枠組みを利用することでニアミス候補を活用できると考えた.ランキングの生成にのみ視線データを利用することで,パラメータ推定に視線が必要となるが視線データのない新規のテキストに対して項を推定することが可能になる. 評価実験の結果,視線情報を利用することで述語と同一文内に現われるガ格項の同定精度が最大で0.07ポイント向上し,視線情報が述語項構造解析に有効であることを示した.しかしながら文を越えた述語項構造の同定の精度は依然として低く,さらに視線情報の使い方に改善の余地がある.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
平成28年度に予定した研究項目は(1) 振舞いデータ収集のための環境構築,(2) 振舞いデータの収集と分析であった.このうち(1)については当初課題ごとに個別に作成していた視線計測用のアノテーションツールをライブラリ化し,アノテーションツール部分と視線計測部分を分離することにより,今後さまざまなアノテーションの視線計測を容易におこなえる実験環境を構築した.(2)については策定した実験計画に沿って収集したセグメント課題とリンク課題のデータについて分析をおこない,【研究実績の概要】で述べたような成果を得ている.さらに,2年度以降におこなう予定であった,(3) データ分析から得られた情報の利用についても実施を開始し,リンク課題については解析モデルを提案し従来の手法に比べて視線情報を導入することにより性能が改善することを示した
|
今後の研究の推進方策 |
【現在までの進捗状況】で述べたとおり計画どおりに順調に研究を実施しているので,当初の予定どおり計画を進める.特に変換課題の具体例としてテキスト要約をとりあげ,データを収集するとともにその分析をおこない,その知見を自動テキスト要約に反映させることを予定している.
|