研究分担者 |
篠原 歩 九州大学, 大学院・システム情報科学研究科, 助教授 (00226151)
今井 浩 東京大学, 大学院・理学系研究科, 助教授 (80183010)
安倍 直樹 IBM, トーマスワトソン研究センター, 研究員
渡辺 治 東京工業大学, 大学院・情報理工学研究科, 教授 (80158617)
高須 淳宏 国立情報学研究所, ソフトウェア研究系・データ工学研究部門, 助教授 (90216648)
|
研究概要 |
膨大なデータベースから有効な情報を効率良く取り出すための,種々の計算のメカニズムを与えるとともに,特にテキストを対象とした情報抽出のための手法を開発した.代表的な成果は以下のとおりである. 知識発見とブースティング:ブースティングは,複数の性能の劣る予測アルゴリズムを統合して,高い予測性能をもつ予測アルゴリズムを構成する学習法で,実用性も高い手法である.この手法に関連して,状況に応じてサンプル量を適宜自動調整する適応型サンプリング技法を用いた新しいブースティングMadaBoostを開発した.また,学習アルゴリズムが自ら環境に働きかけ,能動的に情報を収集するという視点にたった能動学習アルゴリズムを考案し,従来法を上回る予測精度が得られることを計算機シミュレーションにより示した.さらに,ブースティングのひとつの方式である決定木ブースティングのための見通しの良い理論を構築するとともに,決定木の視点に線形分離関数を割り当てた決定木ブースティングを開発した. テキスト解析における知識発見:遺伝子情報からの機械発見システムBONSAIの核となるアルゴリズムとして,最良の部分列パターンを見つけるアルゴリズムを開発した.また,話者適応するテキスト解析のために,Baum-Welchアルゴリズムからオンライン型アルゴリズムを構成した. 情報圧縮に基づく知識発見:テキストを対応とした文脈木重み付け法により圧縮に基づいた学習アルゴリズムを開発した.また,形態素間の文法的関係を最小記述長のグラフとして表すことにより,辞書知識ベースの作成する方法を提案し,実際の辞書テキストの知識構造化を行い,この方法の妥当性を検証した. 不確実環境における知識発見:現実のテキストデータから情報を効率良く抽出する方法として,誤りを含む文字列データの近似マッチング法を与えた.また,適応型サンプリング手法に基づいて,不確実性をもつ環境における学習アルゴリズムの現実的な評価法を与えた.
|