2011 Fiscal Year Annual Research Report
Project/Area Number |
23680014
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
飯田 龍 東京工業大学, 大学院・情報理工学研究科, 助教 (40464276)
|
Keywords | 推敲支援 / 照応解析 / アノテーション |
Research Abstract |
本研究課題では,照応解析などの談話解析技術を利用した談話レベルの文章自動推敲技術の開発を目的としている.本年度は作文データの収集,参照表現の生成課題,主題連鎖を利用した文章のつながりの良さ(首尾一貫性の良さ)の評価を対象とした. まず,1つ目のデータ収集に関しては,いくつかの大学の留学生センターやすでに小論文のデータを収集済みの研究者の協力を得て,数種類の作文データを手に入れることができた.すでに収集済みのデータについては談話解析で必須となるゼロ照応関係を含めた述語項構造の関係のアノテーションが完了しており,予備的に自動解析の評価を行った結果,新聞記事コーパスを対象とした場合と比較して若干低い解析精度を得た.問題分析の結果,新聞と比較して頻出する外界照応の影響であることがわかっており,この点を改善する予定である. また,参照表現の生成課題については参照表現の出現する箇所でその表現を省略すべきか否かという2値分類問題として簡略化することで評価を行った.学習データが十分な量存在する新聞記事データを対象に評価を行い,F値で0.55という解析を得た.誤り分析を行ったところ,新聞記事に顕著に出現する記事のまとめに相当する箇所で参照表現を明示的に記述する傾向があることがわかり,この影響を除いて評価を行う必要があることがわかった.このために人手で省略すべきか否かの評価用データを作成中であり,結果を5月のSIGNLで報告予定である. さらに,ACL2011で発表した照応・共参照解析の手法を用いた文章の首尾一貫性の良さの指標を提案した新聞記事コーパスを用いた評価の結果,提案手法は既存手法よりも精度良く首尾一貫性が推定できることがわかった.この結果についてはSIGNL204や言語処理学会で報告済みであり,EMNLP2012へも投稿予定である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
23年度に作業対象としていた参照表現の自動生成課題,首尾一貫性の低いデータ(学生が記述した作文データ)の収集,照応・共参照解析を利用した首尾一貫性の自動評価について目的とする品質で実施できており,来年度の作業に支障がないため.
|
Strategy for Future Research Activity |
推敲支援の課題について他大学の教員にも興味を持っていただけたため,来年度は今年度収集した種類の作文(「英語の早期教育の是非」を課題とした作文のような著者の意見を述べる作文)を継続してより大規模に収集できることとなった.このため,このデータが収集され次第,談話研究で必要となる関係をアノテーションする予定である.また,文章作成時における著者の視線情報の収集も同時に行うため,この結果を利用した著者の文章作成時の認知過程と顕現性などの談話の特徴について調査が可能になると考えられる.この点についても来年度以降調査を行う予定である.
|