研究概要 |
本研究では,データ圧縮という古典的研究分野に「機械発見処理の高速化」という新しい価値基準を導入し,この視点から,データ圧縮で用いられる各要素技術の再評価を行い,機械発見システム構築のための基礎技術を確立することを目的とする. 本研究では,対象を,陽には構造をもたない文字列データに絞り,文字列データを対象とした機械発見の問題を扱う.データ圧縮と機械発見を統一的に扱うために,文字列記述の形式的体系を導入し,このもとで,機械発見に必要な文字列処理問題の計算量を解析してその階層を究明する.また,実用的に有用なクラスに関して,文字列パターン照合や文字列データ圧縮の分野の最新の結果を積極的に取り入れ,高速な知識発見アルゴリズムを開発することを目指す. 本年度は,まず,与えられた正例と負例から,それを弁別するパターンを発見する問題に取り組んだ.この問題は多くのパターン族に対してNP困難であることが知られているが,実用的時間内に計算を完了させるための方法を確立するために研究を行っている.特に,パターン文字列とテキスト文字列との照合にある程度のミスを許した柔軟な照合である近似文字列照合や任意の文字に合致するドントケア記号,任意の長さの任意の文字列に合致するワイルドカードを含むパターンに関する発見の問題に取り組み,高速パターン照合技法と枝刈り手法によって,実用的アルゴリズムを開発した. また,半構造データからの知識獲得のため,XML文書に対する高速な検索方式を開発し,その技術を発展させて集計処理,変換/整形のための効率のよい方法を開発した.既存のシステムとの比較によりその有効性を検証した. さらに,医薬品名データを対象とした類似文字列照合問題に取り組み,ヒューマンエラーを誘発する類似薬名対を抽出するために有効な類似性指標を設計し,その評価をあたえた.
|