2003 Fiscal Year Annual Research Report
データ圧縮とパターン照合に基づく高速機械発見システムの開発
Project/Area Number |
15300049
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Research Institution | Kyushu University |
Principal Investigator |
竹田 正幸 九州大学, 大学院・システム情報科学研究院, 助教授 (50216909)
|
Co-Investigator(Kenkyū-buntansha) |
杉本 典子 九州大学, 情報基盤センター, 助手 (80271120)
坂本 比呂志 九州工業大学, 情報工学部, 助教授 (50315123)
篠原 歩 九州大学, 大学院・システム情報科学研究院, 助教授 (00226151)
|
Keywords | データ圧縮 / 機械発見 / 類似性指標 / パターン発見 / 計算量 / 索引構造 / 圧縮と発見 / パターン照合 |
Research Abstract |
本研究では,データ圧縮という古典的研究分野に「機械発見処理の高速化」という新しい価値基準を導入し,この視点から,データ圧縮で用いられる各要素技術の再評価を行い,機械発見システム構築のための基礎技術を確立することを目的とする. 本研究では,対象を,陽には構造をもたない文字列データに絞り,文字列データを対象とした機械発見の問題を扱う.データ圧縮と機械発見を統一的に扱うために,文字列記述の形式的体系を導入し,このもとで,機械発見に必要な文字列処理問題の計算量を解析してその階層を究明する.また,実用的に有用なクラスに関して,文字列パターン照合や文字列データ圧縮の分野の最新の結果を積極的に取り入れ,高速な知識発見アルゴリズムを開発することを目指す. 本年度は,まず,与えられた正例と負例から,それを弁別するパターンを発見する問題に取り組んだ.この問題は多くのパターン族に対してNP困難であることが知られているが,実用的時間内に計算を完了させるための方法を確立するために研究を行っている.特に,パターン文字列とテキスト文字列との照合にある程度のミスを許した柔軟な照合である近似文字列照合や任意の文字に合致するドントケア記号,任意の長さの任意の文字列に合致するワイルドカードを含むパターンに関する発見の問題に取り組み,高速パターン照合技法と枝刈り手法によって,実用的アルゴリズムを開発した. また,半構造データからの知識獲得のため,XML文書に対する高速な検索方式を開発し,その技術を発展させて集計処理,変換/整形のための効率のよい方法を開発した.既存のシステムとの比較によりその有効性を検証した. さらに,医薬品名データを対象とした類似文字列照合問題に取り組み,ヒューマンエラーを誘発する類似薬名対を抽出するために有効な類似性指標を設計し,その評価をあたえた.
|
Research Products
(6 results)
-
[Publications] Masayuki Takeda et al.: "Discovering Most Classificatory Patterns for Very Expressive Pattern Classes"Lecture Notes in Computer Science. 2843. 486-493 (2003)
-
[Publications] Tomohiko Sugimachi et al.: "A Method of Extracting Related Words Using Standardized Mutual Information"Lecture Notes in Computer Science. 2843. 478-485 (2003)
-
[Publications] Shunsuke Inenaga et al.: "Linear-time off-line text compression by longest-first substitution"Lecture Notes in Computer Science. 8572. 137-152 (2003)
-
[Publications] Hideo Bannai et al.: "Inferring Strings from Graphs and Arrays"Lecture Notes in Computer Science. 2747. 208-217 (2003)
-
[Publications] Kensue Baba et al.: "On the length of the minimum solution of word equations in one variable"Lecture Notes in Computer Science. 2747. 189-197 (2003)
-
[Publications] Satoru Miyamoto et al.: "Ternary Directed Acyclic Word Graphs"Lecture Notes in Computer Science. 2759. 120-130 (2003)