研究概要 |
辞書は, 自然言語処理研究のための最も基本的な資源の一つである. 本研究の目的は, 大規模な辞書データベースを作成し, これを自然言語処理研究グループの共通の資源として整備するとともに, 辞書データベース構築における基本的な問題を明確にすることであった. この目的を達成するために, 以下の研究を行った. 1.人間用辞書からの情報抽出とその形式化:市販されている人間用辞書から機械処理に有用な情報を自動抽出するアルゴリズムを作成した. 特に, ロングマンの英語辞書から各単語の形態素情報, 統語情報, 意味情報を抽出し, これを汎用の関係データベースで処理できる形式に変換した. 意味情報の抽出は, 語義の定義文から単語間の上位-下位関係を抽出することで行ったがその結果, 大規模な意味ネットワークが構成できた. これは, 今後の研究においてシソーラスの自動合成などを行うための基礎データとして使用できよう. 2.辞書検索用のソフトウェアの開発:1で抽出された辞書データを柔軟に検索するためのソフトウェアシステムを開発した. 作成されたシステムには大型計算機センター上の関係データベースを利用したものと, 人口知能用ワークステーション上のプログラム言語プロログを使用した2種類のシステムがある. 前者は多くの研究者が成果を共有するためのシステム, 後者は検索の柔軟性に重点を置いたシステムになっている. このシステム開発を通して大規模な辞書データベースが解決すべき課題を明らかにした. 3.成果の公表:本研究で得られた成果は実際の辞書データベースであり, これは必要に応じて他の研究グループに公開する予定である. また, 1で抽出された意味関係データはすべて印刷し, 他の研究グループが参照できる形式になっている.
|