• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

1997 年度 実績報告書

コーパスからの専門用語の自動抽出と知識獲得のための統合的なツールシステムの開発

研究課題

研究課題/領域番号 08558027
研究機関東京大学

研究代表者

辻井 潤一  東京大学, 大学院・理学系研究科, 教授 (20026313)

研究分担者 清野 正樹  松下電器, 東京研究所, 研究員
池原 悟  鳥取大学, 工学部, 教授 (70283968)
影浦 峡  学術情報センター, 助教授 (00211152)
小山 照夫  学術情報センター, 教授 (80124410)
キーワード知識獲得 / 記号処理プログラム / データベース / 意味クラス
研究概要

テキストからの知識獲得を、人間援助の形式で行なうためのシステムは、[a]複数単語からなる専門語を自動認識するためのプログラム群、[b]専門用語(単一語句、複数語からなる句)の意味的なクラスを同定するプログラム群、[c]それまでに獲得された知識を保持する中央データベースのためのプログラム群、の3つのグループのソフトウェア群からなる。
本年度は、研究の第2年度として、この3つのソフトウェア群の大半の開発を完了し、最終年度の実験のための準備を完了した。以下に、その研究内容を示す。
[1]中央データ・ベース系の設計とその開発:東京大学・辻研究室で開発中の記号処理用のプログラム言語(LiLFes)と、日本電子化辞書(EDR)で開発されてきたコーパス・データベース、および、概念辞書データベースとのインターフェースを設計・開発し、獲得された知識とそのもととなったデキストとをとも管理する中央データ・データベース系を完成した。また、鳥取大学のグループでは、この中央データベース系とNTT辞書との整合性の研究を行なった。
[2]専門用語の自動認識プログラムの開発:学術情報センターにおいては、専門用語性を判定するための基本となる専門用語の統計的な性質を研究し、専門用語性判定のためのプログラム群を作成した。また、東京大学・辻井研究室では、n-字組の連結性を判定する測度を導入し、これがゲノム・サイエンス関連の文献から、その分野での専門用語を抽出するのに有効であることを確認した。これらのプログラム群は、中央データベースとのインターフェース条件を満足するパッケージとして整理されている。
[3]意味クラス同定のためのプログラム群の開発:東京大学・辻井研では、[2]で抽出された専門用語を、その周囲の環境に関する情報から意味クラスを同定するための研究を開始した。現在は、表層単語列からの認識だけを実験した段階で、その結果は十分なものとはいえないが、今後、統語構造などを考慮した、より分離能力の高い手法を開発する予定である。松下電器のグループでは、統語構造を考慮した手法を一部開発し、良好な結果を得ているので、最終年度には、両グループの研究成果を統合し、パッケージとして整備する予定である。
以上のように、知識獲得用システムの基本部分はすでに開発できたので、最終年度は、これを実際のテキストに適用しその有効性を確認すると同時に、そのすべてのソフトウェアを公開するための整備を行なう。

  • 研究成果

    (4件)

すべて その他

すべて 文献書誌 (4件)

  • [文献書誌] J.Tsujii et al: "Towards a Sublanguage-Based Semantics Clustering Algorithm" Recent Adtnces in Natural Language Processing. 377-392 (1997)

  • [文献書誌] 緒方典裕: "Dynamic Canstructive Thesaurus" 第5回国立国語研究所国際シンポジウム第1専門部会論文集. 182-189 (1997)

  • [文献書誌] ToMakino,K.Torisawa & J.Tsujii: "LiLFeS-Practical Progamiming Lauguage for Typed Feature Structures" Proc.NLPRS 97. 239-244 (1997)

  • [文献書誌] 緒方典裕、高橋るり子: "形式談話理論 基づいたテキスト中の因果関係抽出に向けて" 人工知能学会言語音声理解と対話処理研究会. SIG SLUD 9703. 13-20 (1998)

URL: 

公開日: 1999-03-15   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi