平成19年度は、日本語においては「京都大学テキストコーパス」に対し、中国語においては「Penn Chinese Treebank」に対し、時間表現へのタグ付け作業を行った。特にテンス・アスペクトの情報が形態論的に表出しない中国語においては、事象表現に対してもタグ付け作業を行った。事象表現が表す事象が、実世界のものなのか、仮想世界のものなのかという概念を導入することにより、事象表現間の時間関係付与作業の煩雑さの軽減をはかった。また、依存構造解析結果を導入することにより、全ての事象表現間に関係付与するのではなく、限られた表現対にのみ関係付与し、その関係を推論規則で伝播させることにより、重要な時間関係を網羅するようなタグ付け戦略を提案し、その有効性を提案した。さらに、アジア言語におけるはじめての事象表現間の時間順序推定器を作成した。提案する時間順序推定器は、プレインテキストを入力とし、形態素解析、依存構造解析、時間情報解析、事象表現に関連する知識の付与、そして時間関係推定を自動的に行うことができる。また、英語における事象表現間の順序推定に関する評価型ワークショップSemEval2007に参加し、1つのタスクにおいて出場6チーム中2位の成績をあげた。このことは、開発しているシステムが世界トップレベルの性能を持っていることを裏付けている。日本語につもては、言語学の文献を調査した結果、テンスが明に表出しないかわりに、かなり豊かなアスペクトを表出することがわかった。日本語アスペクトを体系化し、小さいサイズではあるがアスペクトのオントロジーを構築した。このデータは、今後日本語の事象表現解析器を構築する際に有効な言語資源となると考える。
|