研究課題/領域番号 |
23680014
|
研究機関 | 東京工業大学 |
研究代表者 |
飯田 龍 東京工業大学, 情報理工学(系)研究科, 助教 (40464276)
|
研究期間 (年度) |
2011-04-01 – 2014-03-31
|
キーワード | 推敲支援 / 談話解析 / 首尾一貫性 |
研究概要 |
本研究で対象とする談話レベルの推敲支援は自然言語処理の問題のうち,照応・共参照解析などの談話解析とその解析結果に基づく自然言語生成の問題を複合的に扱う課題となっている.24年度は特に,談話の理論的な立場から,推敲支援のために重要な要素技術となる参照表現の自動生成の問題と節の受動化の問題に取り組んだ.前者の参照表現の自動生成の問題については,ある述語の項が与えられた状況で「項を名詞句として生成する」「項を代名詞として生成する」「項を省略する」の3値に分類する問題とみなし,項の前方文脈や生成すべき格を考慮した分類モデルを構築した.後者の節の受動化の問題についても前方文脈と述語項構造を与えて,対象となる述語が「(ら)れる」をともなって生成されるか否かの2値分類問題を解いた.これらの要素技術は重要な課題であるが,学習・評価に利用できるデータが無かったために研究が進められていなかった.これに対し,本研究では近年構築されたNAISTテキストコーパスを学習・評価用のデータとして利用することで,生成の精度を大規模データを用いて初めて定量的に調査した. また,結束性の低い文章から高い文章を生成するために,既存研究ですでに収集済みの小論文120記事を対象に人手修正データを作成した.文章の構成が適切ではない箇所を部分的に再配置するが,この際書かれている内容を保持するよう作業を限定することで,何も限定せずに作業した場合と比較して計算機でも実現可能な推敲の問題となるように修正データを作成する.人手作業では,1つの記事に対し3人の専門家に作業してもらうことで,複数の修正の可能性を提示してもらう.以降はこのデータを中心に分析することで,小論文を対象とした推敲の方向性を吟味する. 上述の各研究テーマについてはそれぞれ情報処理学会自然言語処理研究会と第19回言語処理学会年次大会で発表を行っている.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
24年度計画していた内容は,(1)結束性の低い文章から高い文章への人手編集,(2)文の並び換え技術の開発,(3)結束性の低い文章の照応・省略解析である.まず,(1)の人手編集のデータ作成については,データ作成の前処理として文章を節などの談話単位に分割する技術が必要となるが,このための学習・評価用のデータを構築し,自動的に談話単位分割を行うモデルを構築した.このモデルの出力結果を利用して,(1)の人手修正作業を行う.この人手修正作業の対象として小論文データを収集し,それに対する人手による修正を試みた.6名の添削の専門家に修正作業を依頼し,今後の人手分析や評価のために十分に意味のあるデータを構築することができた.また,(2)の並び換え技術の開発については,昨年度から引き続き新聞記事を対象に首尾一貫性のモデルを構築し,その結果を自然言語処理の国際会議の一つであるCOLING2012で発表を行った.また,(1)で作成した人手修正の結果についても人手で分析を行い,「著者の主な主張」や「主張の理由」などのラベルが並び換えのための重要な手がかりであることを明らかにした.(3)の結束性の低いデータを対象にした照応・省略解析については,既存研究と同程度の精度で解析性能できることがわかったが,この精度は文の並び換えや参照表現の生成にそのまま利用できるほど高い数値ではないため,今後は以降の推敲の処理にどのようなタイプの照応・省略解析が必要となるかを明らかにし,その部分のみを高い性能で解析できるようにすることで自動推敲を実現する必要がある.
|
今後の研究の推進方策 |
今後は24年度に作成した人手による小論文修正データをさらに分析することで,どのような談話的な特徴が人手による修正と相関するかを調査する.これらの分析結果やこれまでに開発してきた首尾一貫性のモデルを統合することで,最終的な自動推敲のモデルを構築する.さらに,Webアプリケーション経由でこの推敲モデルへのアクセスを可能にすることで,学習者が容易に利用できる学習教材の作成を目指す.
|