研究課題/領域番号 |
16H02865
|
研究機関 | 東京工業大学 |
研究代表者 |
徳永 健伸 東京工業大学, 情報理工学院, 教授 (20197875)
|
研究分担者 |
西川 仁 東京工業大学, 情報理工学院, 助教 (00765026)
相澤 彰子 国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 自然言語処理 / コーパス / アノテーション / 行動履歴 / 視線計測 |
研究実績の概要 |
H30年度は,変換課題として文章要約と文書の推敲を取りあげ,アノテーション中の視線やツール操作などの行動履歴を対象として分析をおこなった. 文章要約については,英語試験IELTSの読解問題から800語程度の文章を3つ選び,それぞれを1/4程度に要約する課題を10名の博士課程学生に与え,要約作成過程の視線とキー入力を記録した.10作業者が3文章について作成した30の要約とその要約過程の行動履歴を収集した.人間の要約過程は元文書を読む段階と情報を選択する段階の2つの段階からなると仮定した要約モデルを提案し,要約に使われた語と使われなかった語への視線の停留の比率がこれらの2つの段階で逆転するという知見を得た.この知見は自動要約において要約にどのような語を使うべきかの指針を与えるものである.この成果については論文を準備中である. 文書の推敲については,同一命題についてアジア圏の大学生が作成した議論的エッセイを推敲し,エッセイを改善する課題を扱った.推敲対象のエッセイは神戸大学で構築されたコーパスICNALEからエッセイの評価点が中位のものを150選択した.作業者がガイドラインにしたがって,これらのエッセイに議論構造を付与し,それを参考にしてより説得力のあるエッセイに修正する過程のツール操作を行動履歴として収集した.データ分析の結果,議論構造を構成する文間の関係のうち,作業者はdetailとsupport関係の決定に迷うことが多く,この傾向は作業者間の一致度の分析におけるこれらのラベルの不一致率が高いことと整合する.これはアノテーションの信頼性を単一作業者の行動履歴からも推定できることを示している.この成果については,2019年3月に開催された言語処理学会第25回年次大会でデータの収集を中心に論文を発表した.データの分析結果については論文を準備中である.
|
現在までの達成度 (段落) |
平成30年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
平成30年度が最終年度であるため、記入しない。
|