1998 Fiscal Year Annual Research Report
二分決定グラフを知識表現に用いたデータマイニングシステムの開発
Project/Area Number |
09558032
|
Research Institution | The University of Tokyo |
Principal Investigator |
宮野 悟 東京大学, 医科学研究所, 教授 (50128104)
|
Co-Investigator(Kenkyū-buntansha) |
下薗 真一 九州工業大学, 工学部, 助教授 (70243988)
内田 智之 広島市立大学, 情報科学部, 助教授 (70264934)
篠原 歩 九州大学, システム情報科学研究科, 助教授 (00226151)
丸山 修 東京大学, 医科学研究所, 助手 (20282519)
阿久津 達也 東京大学, 医科学研究所, 助教授 (90261859)
|
Keywords | 二分決定グラフ / 学習 / 知識発見 / パターンマッチングアルゴリズム / データマイニング / 計算量 / 情報量 / ゲノム |
Research Abstract |
知識発見のシステムを科学データに適用し,科学的発見を支援するシステムを開発することが本研究の目的である.このため,本年度は以下のような実績を挙げている. (1) エキスパートの知見を知識発見システムに導入するための方式の研究:ビュー及びビュー探索空間を定式化し,さらにビュー及びビュー探索空間の合成の定式化を行った.この定式化に基づいてエキスパートとしてのユーザがデータに対して独自のビューを設計できるためのシステムを開発中である.システムの一部と計算機実験については報告した. (2) 情報量に基づいた決定木構築法と文字分類アルゴリズムの融合に知識発見方式の研究とその計算機実験:第1点は文字分類アルゴリズムと決定木構築を融合したシステムを並列化することにより非常に劇的な効率化可能となったことを計算機実験により確かめた.第2点は文字種が多い場合(数千〜数万),文字分類が効率化のボトルネックとなっていた.これに対してラフリーディングという概念を導入し,そのアイディアを実装したシステムを作りMEDLINEデータベースを使った文献データに対する計算機実験を行なった.比較的よい結果が得られたが更に検討が必要である.また文字分類問題の計算量を解明し,多項式時間近似アルゴリズムを作った. (3) 最小の決定ダイアグラムを構成する問題の計算量の研究:BDDの最小化問題の計算量を明らかにした.この問題がある程度よりよい多項式時間近似率を持ち得ないことを証明した. (4) LZWで圧縮されたテキストデータに対する複合パターン照合アルゴリズムの開発:LZWの形式で圧縮されたテキストを対象として効率のよい複数のキーワードを同時に扱うことができるアルゴリズムを開発し,その効率の理論的解析と計算機実験をおこなった.これにより,圧縮形式のテキストデータに対しても直接に,本研究で開発しているシステムが対応できるかどうかの検討を始めることになった. (5) スコア関数の学習に関する研究:スコア関数はよりよい仮説の探索に使われるものであるが,このスコア関数を学習する一般的な方式を開発し,その問題の複雑さについて理論的観点から知見を得た.
|
-
[Publications] O.Maruyama: "Toward genomic Hypothesis Creator: View Designer for Discovery" Proc.First International Conference on Discovery Science,Lecture Notes in Artificial Intelligence,Springer-Verlag. 1532. 105-116 (1998)
-
[Publications] H.Bannai: "Parallelized knowledge discovery system: an enhancement to BONSAI" Genome Informatics 1998.Universal Adademy Press,Inc.238-239 (1998)
-
[Publications] S.Usuzaka: "A machine learning approach to reducing the work of experts in article selection from database: a case study for regulatory relations of S.cerevisiae genes in MEDLINE" Genome Informatics 1998.Universal Adademy Press,Inc.91-101 (1998)
-
[Publications] Shimozono: "On the hardness of approximating the minimum consistent acyclic DFA and decision diagram" Inf.Process.Lett.66(4). 165-170 (1998)
-
[Publications] T.Kida: "Multiple pattern matching in LZW compressed text" Proceedings DCC'98 Data Compression Conference,IEEE Comput.Soc.Press. 103-112 (1998)
-
[Publications] T.Akutsu: "On the complexity of deriving score functions from examples for problems in molecular biology" Proc.ICALP'98 (Lecture Notes in computer Science). 1443. 832-843 (1998)
-
[Publications] H.Arimura: "Maximizing agreement with a classification by bounded or unbounded number of associated words" Proc.The 9th International Symposium on Algorithms and Computation (Lecture Notes in Computer Science 1533),Springer-Verlag. 39-48 (1998)
-
[Publications] S.Shimozono: "Alphabet indexing for approximating features of symbols" Theoretical Computer Science. 210. 245-260 (1999)