研究分担者 |
篠原 歩 東北大学, 大学院・情報科学研究科, 教授 (00226151)
坂本 比呂志 九州工業大学, 情報工学部, 助教授 (50315123)
杉本 典子 九州大学, 情報基盤センター, 助手 (80271120)
石野 明 九州大学, 大学評価情報室, 助手 (10315129)
南里 智子 同志社大学, 文化情報学部, 講師 (50363388)
|
研究概要 |
本研究では,高速な機械発見システム開発のために以下の3つの項目について研究し,多くの成果を得た。 ・テキスト圧縮とパターン照合 文法変換に基づく圧縮法に焦点をあて,効率的な圧縮アルゴリズムを開発した。これらを基盤技術として用いながら,圧縮文字列照合問題に取り組み,効率的な圧縮文字列照合アルゴリズムの開発に成功した。 ・テキストと半構造データの高速処理 テキストデータの高速処理のために,索引構造の開発を行った。部分文字列パターンに対する索引構造として接尾辞木とDAWGが知られている。そこで,両方の性質を持つCDAWGに着目し,オンライン線形時間CDAWG構築アルゴリズムを開発した。これに基づき,スライド窓に対応したCDAWG構築アルゴリズムを考案し,テキストデータ圧縮に活用した。また,日本語テキストなどアルファベットサイズの大きなテキストデータに適した新たな索引構造を与え,その有用性を示した。一方,部分列パターンの照合のための索引構造である部分列オートマトンについて解析し,部分列パターン発見の高速化に関する知見を得た。さらに,十数年ものあいだ未解決であった語接尾辞木のオンライン線形時間構築アルゴリズムを考案した。 半構造データの高速処理のために,ビット並列化技法に基づく高速木パターン照合アルゴリズムを開発した。 ・パターン発見と情報抽出 大量のデータから現実的な時間内に有用な規則を抽出するパターン発見アルゴリズムに関して,様々なパターン族についてそれぞれ独自の高速アルゴリズムを開発した。また,形式的体系(EFS)の質問学習や半構造データからの知識発見に関する研究も行った。これらのアルゴリズムを実働化しそのパフォーマンスを評価した。 以上の研究で得られた成果を統合し,計算機上に高速な知識発見システムを構築した。言語データおよび文学作品データに適用し,言語学および文学の専門家の立場から有効性を検証した。
|