• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

1995 年度 実績報告書

近似圧縮アルゴリズムによるテキストデータ処理の高速化

研究課題

研究課題/領域番号 07780341
研究機関九州工業大学

研究代表者

下薗 真一  九州工業大学, 情報工学部, 助手 (70243988)

キーワード近似アルゴリズム / テキスト圧縮 / 組合せ最適化問題
研究概要

本研究では,組合せ最適化の考え方をもとに,情報の損失と誤差を対応させ,処理速度と高い圧縮率の保証を求められる非可逆圧縮の操作に応用可能な文字インデックスを定式化した.この文字インデックスを用いたテキスト処理における「検索」を定義し、圧縮済みテキスト上で検索処理を行う際の誤差の計量を定式化した.次に,テキスト処理に対して有効な文字インデックスを見つける問題を,組み合わせ最適化問題として定式化し,多項式時間近似アルゴリズムを設計した.文字インデックスを見つける問題に対しては,計算量の理論に基づく解析から,任意に誤差率を下げられる多項式時間近似アルゴリズムが存在しないことが明らかになった.そのため,定数誤差率の達成を目標とした多項式時間近似アルゴリズムの開発と理論的解析を行った.その結果,文字インデックスの問題に対しての定数誤差率近似アルゴリズムの開発に成功した.また,実際のテキストデータを扱って,開発した近似アルゴリズムの実際的な評価を試みた.理論的解析においては,最悪のケースを想定した解析を行っているため,対象となるデータの性質を考慮した実験的評価も重要である.また,多項式時間アルゴリズムとはいえ,その計算量オーダーが高ければ現実のシステムにおいて有用であるとは言い難く,実装上の問題となる.これらの点を検証するため,英文テキストを対象とした文字インデックスを求めるシステムと,これを用いてテキストを圧縮,また検索等の処理を行う試験的なシステムを構築し,実験を行った.その結果,アルゴリズムが十分実用的な時間で大規模なデータに対しても動作すること,理論的に確かめられた圧縮率が得られること,またアルゴリズムの持つ最悪のケースでの誤差よりも一般的にはよい解が得られることなどがわかった.

  • 研究成果

    (2件)

すべて その他

すべて 文献書誌 (2件)

  • [文献書誌] 深町修一,下薗 真一,有村博紀,篠原武: "文字列パターン照合のための損失のあるデータ圧縮" 信学技報(TECHNICAL REPORT OF IEICE). NLC95-6. 41-48 (1995)

  • [文献書誌] Shinich Shimozono: "An approximation algorithm for alphabet indexing problem" Lectuve Notes in Computer Science. 1004. 2-11 (1995)

URL: 

公開日: 1997-02-26   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi