Budget Amount *help |
¥2,900,000 (Direct Cost: ¥2,900,000)
Fiscal Year 1999: ¥1,400,000 (Direct Cost: ¥1,400,000)
Fiscal Year 1998: ¥1,500,000 (Direct Cost: ¥1,500,000)
|
Research Abstract |
第一に、テキスト情報の特異な部分を抽出するアルゴリズムを明らかにした。プログラムでは同じようなパターンの繰り返しが多い.したがって,プログラム中に一定回数以上現れる,一定長さ以上の文字列を取り出すと,プログラムのほとんどの部分を取り出すことができる.取り出せた部分は複数回現れていることから,プログラムとして意味がある部分であるといえる.一方,取り出せない部分はプログラム中の特異な部分であると考えられる.我々はプログラムの誤り等が取り出せない部分に含まれるのではないかと考え,この部分にマークをつけるツールを作成した.本稿では特異部分を検出するアルゴリズムを説明し,コンパイラの検出できない誤りの発見に,付与されたマークが役に立つことを示した. 次に、新聞記事というテキスト情報から、補完類似度による情報の抽出方法を示した.補完類似度とは,パターン認識の分野で用いられる類似の尺度関数である,新聞記事にはあらゆる品詞の語が出現するが,ある範囲の語に関する情報に注目すれば良いと考えた,そこで,固有名詞に着目し,さらに限定して地名に着目した.そして,着目した地名の階層関係を補完類似度を用いて取得することを試みた.その結果,補完類似度を用いて取得した階層関係の適合率が相互情報量を用いて取得した階層関係よりも高かったことが判明した. 最後に抽出された規則を活用する目的で、SOL導出を用いたデータマイニングの一つの方法を示した.SOL導出は,特徴節発見問題を完全に解くことができる導出手続きである.データマイニングは,データベースから知識を発見する工程である.この問題に論理的な推論システムであるSOL導出のデータマイニングへの適用を行なった.そして有用度という観点で得られた結果を選別できることを示した。
|