研究実績の概要 |
計算機による自然言語の形態素・構文解析は,コーパスに言語解釈を付与し,学習・評価を行うという方法論により90年代以降に急速に進展したが,文章の解析については,そのようなコーパス構築の複雑さ,コストの問題から進展せず,研究が停滞している状況にあった.本研究は文脈に関する高次アノテーションを多様で大規模なコーパスに対して行うことにより文脈理解モデルを明確化することを目的とする.具体的には,様々なウェブ文書の書き始め3文を収集したコーパスを構築し,これに対して照応関係と談話関係のアノテーションを行い,このアノテーション基準を明確化することにより計算機による文脈理解のゴールを明確化する.最終年度の平成26年度は次の成果を得た. 1. 5,000文書の省略・照応関係アノテーションの完成:多様なウェブページの先頭3文からなるコーパス,5,000文書に対して,形態素・構文情報と,著者・読者等の外界ゼロ照応を含む省略・照応情報に関するアノテーションを専門家によって行い,省略・照応関係コーパスを完成させた. 2. クラウドソーシングによる10,000文書の談話関係アノテーションの完成:重要な論理関係として根拠・条件と転換の2種類の談話関係に注目し,上述の5000文書を含む10,000文書(30,000文)に対して,談話関係の有無の判定とタイプの判定を2段階で行うクラウドソーシングにより談話関係アノテーションを行った. 3. クラウドソーシングによる確率的アノテーションを利用した談話関係解析:クラウドソーシングによる談話関係のアノテーションが10名によるものであり,各談話関係の確率が求められることから,この確率を機械学習で利用する方法を検討し,その利用で談話関係解析の精度が向上することを明らかにした.
|