Budget Amount *help |
¥3,400,000 (Direct Cost: ¥3,400,000)
Fiscal Year 2005: ¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 2004: ¥1,100,000 (Direct Cost: ¥1,100,000)
Fiscal Year 2003: ¥1,300,000 (Direct Cost: ¥1,300,000)
|
Research Abstract |
本研究の目的は,与えられたデータ集合に内在する因果関係の規則を,構造的な論理関数の性質を用いることにより抽出する,論理的・構造的知識抽出のフレームワークを与えることである.代表的な「構造的な論理関数」としては、分解可能な論理関数などがあげられるが,これを用いた場合,概念を階層的な形で捉えることができるため,ルールはもちろんのこと,データベースの属性間の階層的な構造も抽出することが可能となる.例えば,ある病気に関する診断データベースでの応用を考えた場合,属性間の階層的な構造は病気がどのようなプロセスを経て起こるかに対応すると考えられるため,本手法(構造的なデータ解析)は,より強い分析力を持つと言える.このように,従来は経験を摘んだ人間によってしか得ることのできなかった現象に存在するある種の構造を抽出することが可能となるため,上記のような医療分野のみならず,様々な分野(例えば意思決定システム構築の補助なども含まれる)において,本手法は有効であると考えられる. 今年度は,前年度までに取り組んだ論理関数に基づく知識抽出のフレームワークをさらに広げることを考え,文字列データからのパターン抽出問題について考察を行った.文字列データに対する拡張の観点から,特に固定長部分文字列パターンによるデータ列に対する表現に関して議論を行った.文字列データを論理関数空間にマッピングする上で固定長部分文字列パターンによる効率的なマッピングが望まれる.固定長部分文字列パターンは多く存在するが,単純に簡潔なものを求めようとすると渦汎化の問題により望ましくないマッピングが得られてしまうことが多い.本研究ではこの過汎化を測る尺度(パターン密度)を操案し、これに基づいた最適パターン発見問題を最適化問題として定式化することにより,本マッピング問題の計算複雑度を議論した(NP困難).さらに,プロテイン構造データベースに対する実験を通して,パターン密度が実際に過汎化を測る尺度として有効であることを確認した.以上の結果は,文字列データ集合を0-1多次元空間にマッピングする上で,適切な空間マッピング法を与える指針を与えたと言える.
|