1998 Fiscal Year Annual Research Report
テキスト情報からの固有名詞間の関係の自動抽出の研究
Project/Area Number |
10680379
|
Research Institution | Toyohashi University of Technology |
Principal Investigator |
梅村 恭司 豊橋技術科学大学, 工学部, 助教授 (80273324)
|
Keywords | n-gram / 補完類似度 / データマイニング / SOL導出 / 知識発見 / KDD |
Research Abstract |
第一に、テキスト情報の特異な部分を抽出するアルゴリズムを明らかにした。プログラムでは同じようなパターンの繰り返しが多い.したがって,プログラム中に一定回数以上現れる,一定長さ以上の文字列を取り出すと,プログラムのほとんどの部分を取り出すことができる.取り出せた部分は複数回現れていることから,プログラムとして意味がある部分であるといえる.一方,取り出せない部分はプログラム中の特異な部分であると考えられる.我々はプログラムの誤り等が取り出せない部分に含まれるのではないかと考え,この部分にマークをつけるツールを作成した.本稿では特異部分を検出するアルゴリズムを説明し,コンパイラの検出できない誤りの発見に,付与されたマークが役に立つことを示した. 次に、新聞記事というテキスト情報から、補完類似度による情報の抽出方法を示した.補完類似度とは,パターン認識の分野で用いられる類似の尺度関数である,新聞記事にはあらゆる品詞の語が出現するが,ある範囲の語に関する情報に注目すれば良いと考えた,そこで,固有名詞に着目し,さらに限定して地名に着目した.そして,着目した地名の階層関係を補完類似度を用いて取得することを試みた.その結果,補完類似度を用いて取得した階層関係の適合率が相互情報量を用いて取得した階層関係よりも高かったことが判明した. 最後に抽出された規則を活用する目的で、SOL導出を用いたデータマイニングの一つの方法を示した.SOL導出は,特徴節発見問題を完全に解くことができる導出手続きである.データマイニングは,データベースから知識を発見する工程である.この問題に論理的な推論システムであるSOL導出のデータマイニングへの適用を行なった.そして有用度という観点で得られた結果を選別できることを示した。
|
-
[Publications] 吉川裕之・貴島寿郎・梅村恭司: "n-gram解析手法を応用したプログラム中の欠損の検出" 情報処理学会論文誌. 39-12. 3294-3303 (1998)
-
[Publications] 山本英子・梅村恭司: "Knowledge Discovery by Logical Resolution with Measure." Proc.of Foundations of Data Organization. 5. 89-96 (1998)
-
[Publications] 山本英子・梅村恭司: "データマイニング" 共立出版, 196 (1998)