2003 Fiscal Year Annual Research Report
データマイニングにおけるデータ収集過程の見習獲得手法
Project/Area Number |
13480090
|
Research Institution | Osaka University |
Principal Investigator |
沼尾 正行 大阪大学, 産業科学研究所, 教授 (30198551)
|
Keywords | 機械学習 / エージェント / 人工知能 / データマイニング |
Research Abstract |
これまで情報収集および前処理のデータ形式として,テキスト形式とXML形式について検討してきた.これらは広く普及しているが,前処理の内容にまで踏み込むには,XML形式やテキスト形式の中にさらに高度な表現形式を組み込んでいく必要がある.その第一歩として,前処理結果の論理式による表現を試みた.具体的には,データを論理式で表現し,マイニングを行った.その結果,時系列データが適切に扱えることが示せた.化学薬品データについては、関係マイニング手法を改善することにより,前処理に要する手間を減らせることも確かめられた.また,論理式のような,高度な表現形式を扱う口コミ支援システムについても,検討を行った. 関係マイニングは高度な関係の発見のために用いられてきたが,背景知識を組み込めることから,前処理を簡単化しやすいという利点もある.本研究では,前処理を簡単化するマイニングアルゴリズムの開発という観点からも,研究を続けていく. 情報伝達や前処理過程への重み付けを行うことにより,マイニングにおける人の関与を減らすことができるとの考え方で,前処理を含んだマイニングプロセス全体について研究を行った.その一環として,実例に重み付けすることにより,マイニング過程を制御する実験を行った. 帰納論理プログラミングの一種であるFOILシステムはシンプルで強力なことでよく知られているが,トップダウン方式をとっているために,近視眼的な探索を行いやすいという欠点がある.ところが,複数インスタンス学習(multiple instance learning)で用いられている評価関数に基づいて,例に重み付けを行うことにより,ボトムアップ手法よりもよい結果が得られることが示せた.具体的には,化学薬品データについて,実験を行ったところ,専門家の納得する結果が短期間で得られた.これにより,情報収集とマイニングの連携に寄与できた.
|
-
[Publications] Cholwich Nattee: "Mining Chemical Compound Structure Data Using Inductive Logic Programming"Proceedings of 2nd International Workshop on Active Mining. 2. (2003)
-
[Publications] Ryutaro Ichise: "Relational Mining for Temporal Medical Data"Proc. the 2nd IASTED International Conference on Information and Knowledge Sharing. 2. 164-169 (2003)
-
[Publications] Koichi Moriyama: "Self-evaluated Agent in Multiple State Games"Lecture Notes in Artificial Intelligence. 289-300. 289-300 (2003)
-
[Publications] Cholwich Nattee: "Distance-based Heuristics in Inductive Logic Programming for Multiple-Instance Data"人工知能学会全国大会(第17回)論文集. 17. (2003)
-
[Publications] 佐藤慶宜: "ILPを用いた時系列データからの知識発見"人工知能学会全国大会(第17回)論文集. 17. (2003)
-
[Publications] TRAN TUAN-NAM: "生物医学文献データベースを利用するデータマイニング"人工知能学会全国大会(第17回)論文集. 17. (2003)