• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

近似圧縮アルゴリズムによるテキストデータ処理の高速化

研究課題

研究課題/領域番号 08780373
研究種目

奨励研究(A)

配分区分補助金
研究分野 知能情報学
研究機関九州工業大学

研究代表者

下薗 真一  九州工業大学, 情報工学部, 助教授 (70243988)

研究期間 (年度) 1996
研究課題ステータス 完了 (1996年度)
配分額 *注記
1,000千円 (直接経費: 1,000千円)
1996年度: 1,000千円 (直接経費: 1,000千円)
キーワード近似アルゴリズム / テキスト処理 / データ圧縮 / 近似文字列照合
研究概要

本年度は,文字分類写像の概念に基づく近似圧縮アルゴリズムについて,以下にあげる研究結果が得られた.
まず,(1)テキストデータの復元不可能な情報損失について近似誤差の定式化を行ったところ,文字分類写像は,文字種数を減らすときに失われるシャノン情報量を最小にするものであることが明らかになった.このことから,文字分類写像の定式化の方法が妥当であることが明確になった.次に,(2)組合せ最適化問題として定式化した文字分類を用いる近似圧縮について,多項式時間近似アルゴリズムの設計を行う上での文字分類写像を求める問題の計算量を解析した.結果として,この問題の近似は文字照合としてとらえると可能であるが,相異なる二つの文字列の集合を混同しないという問題として考えると,多項式時間では困難な問題となることが明らかになった.さらに,(3)近似文字列照合機械として非帰還性のオートマトンを用いる方法が一般的であるが,その場合,入出力を完全に特定しなければ最小状態のオートマトンを作ることが計算量的に困難であることがわかった.
また,(4)具体的な適用分野で必要とされる処理に圧縮したデータが適しているかを検証するために,遺伝子情報処理のシステムのプロトタイピングを行い,エンジニアリング・ワークステーションで計算実験をおこなった.結果として,実験対象が文字分類の概念に適したものであれば,厳密な文字列の区別においても非常に効果的であることがわかった.

報告書

(1件)
  • 1996 実績報告書
  • 研究成果

    (4件)

すべて その他

すべて 文献書誌 (4件)

  • [文献書誌] 平田耕一、下薗真一、篠原歩: "無矛盾最小OBDD問題の近似困難性について" 電子情報通信学会技術研究報告. COMP96- 9〜15. 39-48 (1996)

    • 関連する報告書
      1996 実績報告書
  • [文献書誌] 下薗真一: "例を無矛盾に保つための文字分類の近似困難性" 情報基礎理論ワークショップ. (1996)

    • 関連する報告書
      1996 実績報告書
  • [文献書誌] K.Hirata,S.Shimozono,A.Shinohara: "On the hardness of approximating the minimum consistern OBDD problem" Lecture Notes in Computer Science. 1097. 112-123 (1996)

    • 関連する報告書
      1996 実績報告書
  • [文献書誌] M.Yamaguchi,S.Shimozono,T.Shinohara: "Finding minimal multiple generalization over regular patterns with alphabet indexing" Proceedings of the Seventh Workshop on Genome Informatics. 51-60 (1996)

    • 関連する報告書
      1996 実績報告書

URL: 

公開日: 1996-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi