研究概要 |
情報収集のデータ形式として,テキスト形式とXML形式について検討したこれらは広く普及しているが,対象の内容にまで踏み込むには,XML形式やテキスト形式の中にさらに高度な表現形式を組み込んでいく必要がある.その第一歩として,論理式による表現を試みた.具体的には,データを論理式で表現し,マイニングを行った.その結果を参考にして,時系列のデータマイニング技術を開発した.化学薬品データについては,関係マイニング手法を改善することにより,データ収集の手間を減らせることが分かったので,さらに詳細なデータを用いて,検証を行った. 関係マイニングは高度な関係の発見のために用いられてきたが,背景知識を組み込めることから,前処理を簡単化しやすいという利点もある.本研究では,データ収集過程を簡単化するマイニングアルゴリズムの開発という観点からも研究した.情報伝達や前処理過程への重み付けを行うことにより,マイニングにおける人の関与を減らすことができるとの考え方で,前処理を含んだマイニングプロセス全体について研究を行った.帰納論理プログラミングの一種であるFOILシステムはシンプルで強力なことでよく知られているが,トップダウン方式をとっているために,近視眼的な探索を行いやすいという欠点がある.ところが,複数インスタンス学習(multiple instance learning)で用いられている評価関数に基づいて,例に重み付けを行うことにより,ボトムアップ手法よりもよい結果が得られることが示せた.化学薬品データについて,実験を続けたところ,専門家の納得する結果が短期間で得られた.これにより,データ収集過程がマイニング結果に大きな影響を与えることが示され,その具体的方法を提案して,その効果を実証した.
|