研究概要 |
知識工学の分野では,オントロジー(ontology)は人口知能システムにおける語彙の体系と考えられている.しかし現実世界のオントロジーを手作業で作成することは困難な作業である.本研究は,英文科学技術文理解のためのオントロジーの半自動作成技術を確立することを目的とする. まず,INSPECテープの抄録文を対象に,「主語+be動詞+属性形容詞」の文型から,同じ属性形容詞をとる主語の主語の集合を抽出し,集合間の包含関係を調査した.しかし,包含する集合に比べ,包含される集合の要素数が極端に少なく,上位概念が出てこない,という問題があった. 次に,「主語+be動詞+冠詞+名詞」の文型の場合には,主語と補語がISA関係にあると考え,その抽出を行い,名詞の階層構造を作成した.その結果,サイクルが生じるといった問題はあるが,比較的長い系列が存在したことは注目に値する. これらの調査を通じ,科学技術文では常識的な知識を記述することは稀であるため,基礎的な知識が欠けていることが大きな問題となった.基礎的な知識を補うためには,概念階層辞書を用いるのがよいであろう.しかし,一般の概念階層辞書が科学技術文においても有用かどうかを調べる必要がある.ここでは,compare A with Bという動詞のパターンを取りあげた.このパターンにおける目的語AとBは比較できる名詞なので,似ているといえる.そこで,実際に科学技術文に現れるパターンの2つの目的語が概念階層辞書においてどの程度似ているかを,共通の上位概念を持つかどうか,という観点から調査した.その結果,名詞の対307のうち75%程度については共通の上位概念をもつことが確認できた.残り25%については,概念間の上位下位関係が概念階層辞書に欠けており,それをデータから補うことができたとみなすことができる.
|