配分額 *注記 |
4,100千円 (直接経費: 4,100千円)
2003年度: 1,400千円 (直接経費: 1,400千円)
2002年度: 1,300千円 (直接経費: 1,300千円)
2001年度: 1,400千円 (直接経費: 1,400千円)
|
研究概要 |
WWW上を始めとして,社会では自然言語で書かれた膨大な量のテキストが蓄積,流通するようになってきているが,自然言語を(例えば1センテンス単位で)知識表現形としてとらえる場合,曖昧性を排除して意味を一意に確定する自然言語理解の困難さは別にして,組み合わせて使う,即ち連鎖的な推論を働かすことが困難であるという問題がある.この問題への一つのアプローチとして,自然言語表現に近く,1対1(一意)に近い関係で相互変換可能であり,かつ推論機能を併せ持つ知識表現形として,「概念科学表現(Concept Chemical Representation (CCR))と呼ぶ技術の研究開発を行った. 自然言語文をCCR化する場合,すべてのテキスト文を対象にするのは利用価値のない部分も知識ベースに取り込むことになり非効率であるので,主要で意味のある内容を含む記述に焦点を当て,それ以外の部分を排除することが必要になる.そこで,文書が述べている主題,及びそれに強く関連する文を取り出すために必要なキーワード抽出法の研究開発を行った.従来のキーワード抽出法はTF^*IDFに基づく手法が中心であったが,我々はこれらとは異なる以下のような複数の手法を考案,開発した.いずれも英語,日本語ともに適用可能である. 1)1文内での語の共起の偏りに基づく方法,2)語の共起によりグラフ構造を作成し,そのスモールワールド構造情報に基づく方法,3)人間が語を認知する活性度に基づく方法.
|