研究概要 |
これまで情報収集および前処理のデータ形式として,テキスト形式とXML形式について検討してきた.これらは広く普及しているが,前処理の内容にまで踏み込むには,XML形式やテキスト形式の中にさらに高度な表現形式を組み込んでいく必要がある.その第一歩として,前処理結果の論理式による表現を試みた.具体的には,データを論理式で表現し,マイニングを行った.その結果,時系列データが適切に扱えることが示せた.化学薬品データについては、関係マイニング手法を改善することにより,前処理に要する手間を減らせることも確かめられた.また,論理式のような,高度な表現形式を扱う口コミ支援システムについても,検討を行った. 関係マイニングは高度な関係の発見のために用いられてきたが,背景知識を組み込めることから,前処理を簡単化しやすいという利点もある.本研究では,前処理を簡単化するマイニングアルゴリズムの開発という観点からも,研究を続けていく. 情報伝達や前処理過程への重み付けを行うことにより,マイニングにおける人の関与を減らすことができるとの考え方で,前処理を含んだマイニングプロセス全体について研究を行った.その一環として,実例に重み付けすることにより,マイニング過程を制御する実験を行った. 帰納論理プログラミングの一種であるFOILシステムはシンプルで強力なことでよく知られているが,トップダウン方式をとっているために,近視眼的な探索を行いやすいという欠点がある.ところが,複数インスタンス学習(multiple instance learning)で用いられている評価関数に基づいて,例に重み付けを行うことにより,ボトムアップ手法よりもよい結果が得られることが示せた.具体的には,化学薬品データについて,実験を行ったところ,専門家の納得する結果が短期間で得られた.これにより,情報収集とマイニングの連携に寄与できた.
|