研究概要 |
これまで,HTMLやXMLで記述されたWeb文書やSGMLで記述された文献情報のように明確な構造をもたない大量の半構造データに対して,テキストマイニング技術を適用して得られたルールが,検索ユーザに対する検索支援を可能とする知識として提供できることを検証実験などを通じて確認してきた.現在,その成果をWeb検索エンジンや文献情報検索などの各種情報検索システムに適用した検索支援の実験システムの実装を行なっており,知識獲得の基礎的なアルゴリズムの研究開発を行うと共に,検索ユーザに対して獲得知識を与えるインターフェースとなる知識表現に関する研究開発を行っている. 一般的に,知識獲得アルゴリズムは非常に時間を要するため,大量データに対しては処理に数日かかってしまうなど実用的な時間内にルールを導出することが難しい.そこで,高速な処理が可能な相関ルール導出アルゴリズムを基にしたアルゴリズムの開発を行っている.相関ルール導出アルゴリズムはナレッジマネジメントにおける代表的手法であり,大量データから短時間でルール導出が可能であるが,導出ルールはアルゴリズム中で用いられる閾値などのパラメータ設定に依存する性質を持っており,しかも,それらのパラメータは経験的に与えているのが現状である.アルゴリズムの評価においても,同じパラメータを用いた,異なるアルゴリズムによる導出結果に対する比較評価に主眼が置かれており,獲得された知識に対する客観的な評価方法は,まだ完全には確立していない. 本研究では,制御分野の信号処理で「警告漏れ」と「誤警告」のような警告エラーにおける閾値に関する研究としてROC(Receiver Operating Characteristics)解析があるが,この手法を半構造データからの知識獲得アルゴリズムに対して,「検索漏れ」と「誤検索」に対応付けすることにより,ROC解析での評価方法をルール導出アルゴリズムに導入し,獲得された知識である導出ルールのパフォーマンスを計る指針として与えた.また,このパフォーマンスを基づいたパラメータをアルゴリズムに導入することにより,より効果的なルール導出が可能なアルゴリズムを開発した.
|