Co-Investigator(Kenkyū-buntansha) |
徳永 健伸 東京工業大学, 大学院・情報理工学研究科, 教授 (20197875)
乾 健太郎 東北大学, 大学院・情報科学研究科, 教授 (60272689)
橋田 浩一 独立行政法人産業技術総合研究所, サービス工学研究センター, 次長 (00357766)
浅原 正幸 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (80379528)
橋本 泰一 東京工業大学, 総合プロジェクト支援センター, 特任准教授 (10345382)
|
Research Abstract |
本特定領域研究で構築されるコーパスに対して,様々なアノテーションを施すための自動言語解析ツールとアノテーション支援およびコーパス利用ツールの構築を研究目的とした.日本語コーパスへの形態素情報の付与については,電子化辞書班とデータ班が担当することになっており,我々の研究グループ(ツール班)では,形態素情報より上のアノテーションを担当し,そのための様々な言語解析ツール,アノテーション支援ツールの構築,および,コーパスへの具体的なアノテーション作業を実施した. 構築したツールの主なものは,自動言語解析ツールとしては,日本語係り受け解析,固有表現解析,述語項構造解析,照応・共参照解析,モダリティ解析ツールがあり,これらの解析ツールを機械学習を用いて構築するため,および,性能評価のため,それぞれに対応するタグ(アノテーション)付きコーパスを構築するとともに,自然言語解析ツールとして実装した. コーパスアノテーションの支援ツールとしては,形態素,文節,係り受け解析に特化したコーパス管理ツール「茶器」に並列構造のアノテーション機能や文末情報の挿入・削除機能などを実装し,想定したアノテーションのすべてを単独で実現できるシステムとして完成させた.汎用のコーパスアノテーションツール「Slate」をWebブラウザ上で動作可能なシステムとして構築した.また,様々なタグ付きコーパスやコーパス構築ツールを相互運用するためのツールを構築した.
|