研究概要 |
WWW上を始めとして,社会では自然言語で書かれた膨大な量のテキストが蓄積,流通するようになってきているが,自然言語を(例えば1センテンス単位で)知識表現形として捉える場合,曖昧性を排除して意味を一意に確定する自然言語理解の困難さは別にして,組み合わせて使う,即ち連鎖的な推論を働かすことが困難であるという問題がある.このような問題への一つのアプローチとして,自然言語表現に近く,1対1(一意)に近い関係で相互変換可能であり,かつ推論機能も併せ持つ知識表現形として,我々が「概念化学表現(Concept Chemical Representation (CCR))」と呼ぶ技術の研究開発を行ってきた. 自然言語文をCCR化する場合,すべてのテキスト文を対象にすることも考えられるが,主題となる記述のみに焦点を当て,その他の部分は対象から除外することは,擾乱的要素を不要に知識ベースに取り込むことを回避する意味でメリットがある.そこで,文書が述べている主題,及びそれに強く関連する文を取り出すために必要なキーワード抽出法の研究開発を行った.従来のキーワード抽出法はTF*IDFに基づく手法が中心であったが,我々はこれとは異なる以下のような複数の手法を考案,開発するという成果を得た.いずれも英語,日本語ともに適用可能である. 1)1文内での語の共起の偏りに基づく方法 2)語の共起によりグラフ構造を作成し,そのスモールワールド構造情報に基づく方法 3)人間が語を認知する活性度に基づく方法
|