研究概要 |
言語解析ツールに関する研究として,これまで開発してきた日本語の形態素解析,係り受け解析システムを中国語の品詞タグ付けおよび単語係り受け解析システムとして実装した. また,辞書の整備については,中国語の未知語解析法の整備を行い,大量のテキストデータから未知語を抽出する実験を行い,10万語を越える大規模な中国語辞書を作成した.また,日本語の複合表現の辞書への登録に関する基準を設定して複合語辞書の整備を行い,複合語の内部構造を記述した日本語辞書を作成した.英語についても,複合表現の品詞推定についての実験を行い,複合表現が字義的に使われているかどうかを自動判定する手法について高い精度を与える成果を得た. コーパス管理ツールについては,タグ付き言語データと辞書項目の関連付けと関係データベースへの格納のフォーマットの詳細化を行い,これまで開発してきたタグ付きコーパス管理システムに実装した.コーパス中の単語分かち書きおよび品詞タグ付けに関する誤りを修正するためのインタフェースの設計と実装を行った.係り受け解析が行われた文のデータベースへの格納法を決定し,また,係り受け構造を表示するためのインタフェースの実装を行った.さらに,そのインタフェースを用いて,文節のまとめあげと係り受けに関するタグ付け誤りを修正する機能を実装した. 構築したタグ付きコーパス管理システムの諸機能の使い易さと正しさの検証を行うために,利用者を募った講習会を年度内に2回開催し,利用者からのフィードバックを得た.同時に,開発したシステムをWebからダウンロードできる形で一般公開した.
|