研究概要 |
本研究課題では,照応解析などの談話解析技術を利用した談話レベルの文章自動推敲技術の開発を目的としている.本年度は作文データの収集,参照表現の生成課題,主題連鎖を利用した文章のつながりの良さ(首尾一貫性の良さ)の評価を対象とした. まず,1つ目のデータ収集に関しては,いくつかの大学の留学生センターやすでに小論文のデータを収集済みの研究者の協力を得て,数種類の作文データを手に入れることができた.すでに収集済みのデータについては談話解析で必須となるゼロ照応関係を含めた述語項構造の関係のアノテーションが完了しており,予備的に自動解析の評価を行った結果,新聞記事コーパスを対象とした場合と比較して若干低い解析精度を得た.問題分析の結果,新聞と比較して頻出する外界照応の影響であることがわかっており,この点を改善する予定である. また,参照表現の生成課題については参照表現の出現する箇所でその表現を省略すべきか否かという2値分類問題として簡略化することで評価を行った.学習データが十分な量存在する新聞記事データを対象に評価を行い,F値で0.55という解析を得た.誤り分析を行ったところ,新聞記事に顕著に出現する記事のまとめに相当する箇所で参照表現を明示的に記述する傾向があることがわかり,この影響を除いて評価を行う必要があることがわかった.このために人手で省略すべきか否かの評価用データを作成中であり,結果を5月のSIGNLで報告予定である. さらに,ACL2011で発表した照応・共参照解析の手法を用いた文章の首尾一貫性の良さの指標を提案した新聞記事コーパスを用いた評価の結果,提案手法は既存手法よりも精度良く首尾一貫性が推定できることがわかった.この結果についてはSIGNL204や言語処理学会で報告済みであり,EMNLP2012へも投稿予定である.
|
今後の研究の推進方策 |
推敲支援の課題について他大学の教員にも興味を持っていただけたため,来年度は今年度収集した種類の作文(「英語の早期教育の是非」を課題とした作文のような著者の意見を述べる作文)を継続してより大規模に収集できることとなった.このため,このデータが収集され次第,談話研究で必要となる関係をアノテーションする予定である.また,文章作成時における著者の視線情報の収集も同時に行うため,この結果を利用した著者の文章作成時の認知過程と顕現性などの談話の特徴について調査が可能になると考えられる.この点についても来年度以降調査を行う予定である.
|