研究概要 |
計算機による自然言語の形態素・構文解析は,コーパスに言語解釈を付与し,学習・評価を行うという方法論により90年代以降に急速に進展したが,文章の解析については,そのようなコーパス構築の複雑さ,コストの問題から進展せず,研究が停滞している状況にあった.本研究は,文脈に関する高次アノテーションを多様で大規模なコーパスに対して行うことにより,文脈理解モデルを明確化することを目的とする.具体的には,種々の文章の書き始め3文,5000文書のコーパスに対して照応関係と談話関係のアノテーションを行い,このアノテーション基準を明確化することにより計算機による文脈理解のゴールを明確化する.平成24年度は次の成果を得た. 1.対象文章の収集・選択 クローリングによってウェブから大量のテキストを収集し,種々のテキスト特徴量を考慮することにより,アノテーション・コーパスのもととなるバランスのとれた文章を選択した. 2.照応関係のアノテーション基準の設計 文章の結束性を担保する重要な関係である照応関係の基準を整備した.特に著者,読者が主語,目的語となる現象についてプログ記事,Eコマースサイト等に頻出する著者・読者の省略表現を整理し解釈の明確な基準を定めた. 3.アノテーション・インタフェースの作成とアノテーション・トライアルの実施 アノテーション作業を行うインタフェースの設計・構築と数百文書でのアノテーション実験を行った.さらに,一部の文章については複数のアノテーターで作業を行い,その一致度をチェックすることで基準を明確化した-
|