形態素解析用辞書、国語辞典、シソーラス、格フレーム、Wikipediaなど、日本語に関する様々な語彙知識を統一的に語彙データベースとして管理する枠組みを構築した。語彙知識はエントリ単位でXMLフォーマットにて記述されており、定義文、読み、上位語などの属性を記述することができる。また、日本語の処理で問題となる単語区切りについても、語彙データベース内で管理し、また、各エントリに代表表記を付与することにより、表記の揺れ(例: コンピュータグラフィックス = コンピューターグラフィクスなど)を解消することができる。これらの枠組みにより、語彙知識の統一的な管理・アクセスを可能とした。 そして、日本語文の最も基本的な解析、すなわち形態素解析と句認識の結果に語彙知識を埋め込む枠組みをデザインした。具体的には形態素解析器JUMAN、構文解析器KNPの上で実装した。語彙データベースから形態素解析用辞書と構文解析用辞書を出力し、それぞれを解析器で利用し、また、構文解析や省略解析などの様々な言語解析時に参照することや、検索・翻訳などのアプリケーションでの利用を可能にした。これにより、従来の言語解析システムでは必要であった語彙知識の適当なフォーマット変換などが不要となり、意味解析研究の障害の一つを取り除くことができた。また、語彙知識を省略解析などの言語解析時に利用することにより、改善例を確認することができた。
|