研究概要 |
知識を体系的に整理・表現することは,テキストを書きあらわすということで具体化される.その意味で,テキストに対する自然言語処理は知識発見のための基盤技術であるといえるが,高度な学術情報を現在の自然言語処理技術によって発見することはまだ不可能であり,まず必要なことは,基本的・常識的な知識を計算機に与える方法を確立することである.そこで,人間にとって重要な知識源である辞書を計算機にとっても利用可能とすることを目的とし,辞書テキストを,テキストに内在する特徴を手がかりとして自己組織的に構造化する方法を考案した. 具体的には,まず辞書の各定義文を構文解析して木構造(グラフ構造)とし,辞書をグラフ集合に変換する.次に,グラフ集合中に頻繁に現れる部分グラフを一つのノードに置換することによりグラフ集合の圧縮を行う.その際,置換する部分グラフの中に単語のノードだけでなく意味クラスに一般化されたノードを含むことを許す.ここで圧縮の良さの基準としてはMDL原理を利用した. このようにしてできるかぎりグラフ集合の圧縮を行うと,たとえば,植物の定義文では「<意味クラス:色〉の-花が-さく」という部分が圧縮される.この結果は,「花がさく」のように単語のまま圧縮された部分は見出し語間で共通する性質であり,意味クラスの部分は共通だが自由度の残る性質であると見なすことができる.さらに,部分グラフにまとめられない部分,たとえば「あやめ」の定義中の「野山にはえ」のような部分は各見出し語固有の特徴と見なせる. このように,各見出し語(概念)の定義を,その性質の共通性という観点からみて妥当な3つの部分に自動的に構造化することに成功した.
|