研究課題/領域番号 |
08558027
|
研究機関 | 東京大学 |
研究代表者 |
辻井 潤一 東京大学, 大学院・理学系研究科, 教授 (20026313)
|
研究分担者 |
清野 正樹 松下電器, 東京研究所, 研究員
池原 悟 鳥取大学, 工学部, 教授 (70283968)
影浦 峡 学術情報センター, 助教授 (00211152)
小山 照夫 学術情報センター, 教授 (80124410)
|
キーワード | 知識獲得 / 記号処理プログラム / データベース / 意味クラス |
研究概要 |
テキストからの知識獲得を、人間援助の形式で行なうためのシステムは、[a]複数単語からなる専門語を自動認識するためのプログラム群、[b]専門用語(単一語句、複数語からなる句)の意味的なクラスを同定するプログラム群、[c]それまでに獲得された知識を保持する中央データベースのためのプログラム群、の3つのグループのソフトウェア群からなる。 本年度は、研究の第2年度として、この3つのソフトウェア群の大半の開発を完了し、最終年度の実験のための準備を完了した。以下に、その研究内容を示す。 [1]中央データ・ベース系の設計とその開発:東京大学・辻研究室で開発中の記号処理用のプログラム言語(LiLFes)と、日本電子化辞書(EDR)で開発されてきたコーパス・データベース、および、概念辞書データベースとのインターフェースを設計・開発し、獲得された知識とそのもととなったデキストとをとも管理する中央データ・データベース系を完成した。また、鳥取大学のグループでは、この中央データベース系とNTT辞書との整合性の研究を行なった。 [2]専門用語の自動認識プログラムの開発:学術情報センターにおいては、専門用語性を判定するための基本となる専門用語の統計的な性質を研究し、専門用語性判定のためのプログラム群を作成した。また、東京大学・辻井研究室では、n-字組の連結性を判定する測度を導入し、これがゲノム・サイエンス関連の文献から、その分野での専門用語を抽出するのに有効であることを確認した。これらのプログラム群は、中央データベースとのインターフェース条件を満足するパッケージとして整理されている。 [3]意味クラス同定のためのプログラム群の開発:東京大学・辻井研では、[2]で抽出された専門用語を、その周囲の環境に関する情報から意味クラスを同定するための研究を開始した。現在は、表層単語列からの認識だけを実験した段階で、その結果は十分なものとはいえないが、今後、統語構造などを考慮した、より分離能力の高い手法を開発する予定である。松下電器のグループでは、統語構造を考慮した手法を一部開発し、良好な結果を得ているので、最終年度には、両グループの研究成果を統合し、パッケージとして整備する予定である。 以上のように、知識獲得用システムの基本部分はすでに開発できたので、最終年度は、これを実際のテキストに適用しその有効性を確認すると同時に、そのすべてのソフトウェアを公開するための整備を行なう。
|