研究概要 |
本研究では,「データ圧縮に基づく高速テキストマイニング」という研究課題を掲げ,以下の3つの研究項目について研究を進めた。 (A)文字列処理に基づく知識発見手法の開発。 (B)文字列データ圧縮と知識発見。 (C)知識発見処理の高速化のための基礎技術開発。 (A)については,国文学研究あるいは音楽情報処理において用いることのできる類似性指標を,本研究で導入した形式的体系であるSRSに沿って,実際に定義し,実装して有効性を検証した。また,本研究で開発したパタン発見アルゴリズムを,ゲノム情報に適用し,生物学的知見を得ることに成功した。(B)については,代表的索引構造であるDAWGに基づくLempel-Ziv圧縮法の新しい実装法を開発した。また,圧縮テキストを表す形式的体系として本研究で導入したコラージュシステムを対象とし,この形式で表された入力に対して編集距離を求める効率的アルゴリズムを開発した。この手法により,相同配列検索の高速化が期待できる。(C)については,テキスト索引方式の研究を集中して行い,DAWGという索引構造をもとにした新しい索引構造であるMASDAWGを開発・実装し,この構造を用いることで,長年の課題であった「機械学習システムBONSAIで正規パタンを扱えるようにすること」に成功した。これによって,従来は事実上不可能であった計算を実時間内に終了することができるようになり,塩基配列やアミノ酸配列からのより高度な知識発見処理が可能となった。さらに(C)に関して,半構造テキストデータからの発見が重要であるとの認識に立ち,大量のXML文書データを効率的に処理する独自の方式を考案し,プロトタイプシステムを構築した。現段階においても,きわめて高速であり,検索のみならず,データの集計・変換・抽出など具体的な多くの用途に使用できる。
|