研究概要 |
本研究では,WWW上の検索エンジンの出力結果のような,多様なテキスト集合を対象とし,(1)テキスト集合中のテキストの性質(ジャンル,事実を述べているのか/意見を述べているのか等)を特定する技術,(2)(1)の情報を考慮して,テキスト集合中のテキスト間の関係を特定する技術,(3)(1),(2)の情報を元に,テキスト集合から要約を作成する技術の3つの構成素に要約システムを分解し,これらの開発を行なう. 17年度では,テキスト集合中のテキスト間の関係を特定する技術,異なるテキスト中の文間の関係を解析する技術を開発した.テキスト構造解析の場合と同様,テキスト集合の構造解析においても,テキスト中のさまざまな情報が利用可能である.そこで,テキスト集合の構造を正しく解析するのにどのような情報が有用かを分析,検討した.そのため,定義したテキスト間,文間の関係の体系を元に,コーパス中のテキスト間,文間に関係を人手でタグ付けしたタグ付コーパスを作成した.「テキスト中の文間の関係を解析することで,テキストの構造を得る技術(頑健なテキスト構造解析技術)」を開発しており,「テキスト集合中のテキスト間の関係を解析し,テキスト集合の構造を得る技術」および,「異なるテキスト中の文間の関係を解析する技術」は,それを拡張する形で実現した.具体的には,異なるテキスト中の文間において,「同等」,「推移」の関係が成り立つ2文を精度良く同定する技術を開発した.
|