研究分担者 |
篠原 歩 九州大学, 大学院・システム情報科学研究科, 助教授 (00226151)
今井 浩 東京大学, 大学院・理学系研究科, 助教授 (80183010)
安倍 直樹 東京工業大学, 大学院・総合理工学研究科, 客員助教授
渡辺 治 東京工業大学, 大学院・情報理工学研究科, 教授 (80158617)
高須 淳宏 学術情報センター, 研究開発部, 助教授 (90216648)
|
研究概要 |
知識発見に関するいろいろのテーマについて研究を進めた.この研究の個別のテーマは一見多岐にわたるが,アルゴリズム設計,あるいは計算のメカニズムの解明等の視点から,学習,情報圧縮,テキスト解析,ブースティング,最小記述長基準(MDL),情報構造等の,共通する概念を用いてそれぞれのテーマについて研究を展開した.この特定領域研究も3年目を迎え,それぞれテーマが深く掘り下げられると同時に,相互の繋がりも明らかになって来ている.今年度の具体的な研究課題と成果は以下のとおりである. 1.与えられた任意の受動学習方式を用いて大量のデータから,能動学習の手法により情報量の比較的大きい重要なデータのみをメインメモリに読み込み,効率的で高精度のマイニングを行う方法を提案し,その結果得られる知識の予測精度において,従来法を上回ることを示した. 2.新しいブースティングとして,サンプル上の確率分布に極端な偏りが生じないように制約する方式であるMadaBoost(Moderate AdaBoost)を改良したアルゴリズムを与え,その性能を理論的に解析することに成功した. 3.決定木を生成するトップダウン型アルゴリズムにおいて,内部頂点に割り当てる分類規則として線形分離関数を用いた新しい決定木ブースティング方式TopDown+Linを提案し,その性能を計算機実験により検証した. 4.先に開発した機械発見システムBONSAIの核となるアルゴリズムとして,文字列の集合を最も良く分離するパターンを効率良く見つけるアルゴリズムを開発した. 5.Willems,Shtarkov,Tjalikensの文脈木重み付け法(以下CTW)は,情報圧縮のアルゴリズムのひとつで,Rissanenのユニバーサル圧縮アルゴリズムCONTEXTをオーバーヘッドなしで実現したともみなせる.このCTW法をもとに,文字列を対象とした学習アルゴリズムを与え,実際に大規模文字列データに適用して,データに含まれる構造を効率良く抽出できることを示した. 6.レコード(文字列)からなる集合がデータベースとして与えられたとき,各レコードから抜き出したキーをもとに関連するもとのレコードを検索する方法を提案した.
|