1996 Fiscal Year Annual Research Report
近似圧縮アルゴリズムによるテキストデータ処理の高速化
Project/Area Number |
08780373
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
下薗 真一 九州工業大学, 情報工学部, 助教授 (70243988)
|
Keywords | 近似アルゴリズム / テキスト処理 / データ圧縮 / 近似文字列照合 |
Research Abstract |
本年度は,文字分類写像の概念に基づく近似圧縮アルゴリズムについて,以下にあげる研究結果が得られた. まず,(1)テキストデータの復元不可能な情報損失について近似誤差の定式化を行ったところ,文字分類写像は,文字種数を減らすときに失われるシャノン情報量を最小にするものであることが明らかになった.このことから,文字分類写像の定式化の方法が妥当であることが明確になった.次に,(2)組合せ最適化問題として定式化した文字分類を用いる近似圧縮について,多項式時間近似アルゴリズムの設計を行う上での文字分類写像を求める問題の計算量を解析した.結果として,この問題の近似は文字照合としてとらえると可能であるが,相異なる二つの文字列の集合を混同しないという問題として考えると,多項式時間では困難な問題となることが明らかになった.さらに,(3)近似文字列照合機械として非帰還性のオートマトンを用いる方法が一般的であるが,その場合,入出力を完全に特定しなければ最小状態のオートマトンを作ることが計算量的に困難であることがわかった. また,(4)具体的な適用分野で必要とされる処理に圧縮したデータが適しているかを検証するために,遺伝子情報処理のシステムのプロトタイピングを行い,エンジニアリング・ワークステーションで計算実験をおこなった.結果として,実験対象が文字分類の概念に適したものであれば,厳密な文字列の区別においても非常に効果的であることがわかった.
|
Research Products
(4 results)
-
[Publications] 平田耕一、下薗真一、篠原歩: "無矛盾最小OBDD問題の近似困難性について" 電子情報通信学会技術研究報告. COMP96- 9〜15. 39-48 (1996)
-
[Publications] 下薗真一: "例を無矛盾に保つための文字分類の近似困難性" 情報基礎理論ワークショップ. (1996)
-
[Publications] K.Hirata,S.Shimozono,A.Shinohara: "On the hardness of approximating the minimum consistern OBDD problem" Lecture Notes in Computer Science. 1097. 112-123 (1996)
-
[Publications] M.Yamaguchi,S.Shimozono,T.Shinohara: "Finding minimal multiple generalization over regular patterns with alphabet indexing" Proceedings of the Seventh Workshop on Genome Informatics. 51-60 (1996)