研究分担者 |
篠原 歩 九州大学, 大学院・システム情報化学研究科, 助教授 (00226151)
今井 浩 東京大学, 大学院・理学系研究科, 助教授 (80183010)
安倍 直樹 東京工業大学, 大学院・総合理工学研究科 日本電気株式会社・C&Cメディア研究所情報数理TG, 客員助教授 主任研究員
渡辺 治 東京工業大学, 大学院・情報理工学研究科, 教授 (80158617)
高須 淳宏 学術情報センター, 研究開発部, 助教授 (90216648)
|
研究概要 |
今後益々巨大化するデータから有益な情報を取りだすには,計算リソースの限界から障壁は益々厳しいものとなる.巨大データからの情報抽出の可能性と限界を見極め,そのメカニズムを解明することなしでは,関連分野の発展は望めない.そのためデータ中の規則性の抽出,有益な知識の抽出,未知の知識の発見等も広い意味での計算とみなすという立場にたち,これらの計算過程としての共通の側面を取り入れた枠組みをモデル化し研究を展開した.初年度に引き続きこのような視点で情報抽出のためのアルゴリズムの設計,その評価,また対象とするデータの表現形式等について研究を展開した.今年度の具体的な研究課題と成果は以下のとうりである. 1.ダイバージェンスの和最小の評価基準に基づいたクラスタリング理論を展開し,文章中の語の出現頻度ベクトルや画像の色頻度ベクトルのデータを対象として,このクラスタリングの有効性を示した. 2.これまで独立に開発されてきた集団質問学習,ブースティング,さらにバッキングを能動学習の視点から統一的に取りあげ,これらのアルゴリズムを系統的に設計し、各種ベンチマークデータに基づき,これら方式の限界と可能性を明らかにした. 3.情報圧縮されたデータ上で直接パタン照合するため,まず,よく知られたLempel-Ziv族などを含む各種の情報圧縮法を統一的に記述するコラージュシステムという記述システムを新しく導入し,このシステムで記述された情報圧縮法で圧縮されたデータに対して直接働く,効率の良い照合アルゴリズムを開発した. 4.与えられたデータのある種の統計量に基づき,信頼性を保障するために必要なサンプ量を自動的に定める適応型サンプリングを,ブースティングに適用し,従来のAdaBoostを凌ぐ良好な結果を得た. 5.決定リストを等価な単調DNF式の排他的論理和に変換することにより,単調項決定リストの所属質問を等価性質問による学習アルゴリズムを開発した. 6.基本オブジェクトが再帰的構造で組み立てられたオブジェクトを対象とした分類問題を取りあげ,最終的な分類精度を最大化するアルゴリズムを情報量基準に基づいて開発した.
|