研究概要 |
本研究では,組合せ最適化の考え方をもとに,情報の損失と誤差を対応させ,処理速度と高い圧縮率の保証を求められる非可逆圧縮の操作に応用可能な文字インデックスを定式化した.この文字インデックスを用いたテキスト処理における「検索」を定義し、圧縮済みテキスト上で検索処理を行う際の誤差の計量を定式化した.次に,テキスト処理に対して有効な文字インデックスを見つける問題を,組み合わせ最適化問題として定式化し,多項式時間近似アルゴリズムを設計した.文字インデックスを見つける問題に対しては,計算量の理論に基づく解析から,任意に誤差率を下げられる多項式時間近似アルゴリズムが存在しないことが明らかになった.そのため,定数誤差率の達成を目標とした多項式時間近似アルゴリズムの開発と理論的解析を行った.その結果,文字インデックスの問題に対しての定数誤差率近似アルゴリズムの開発に成功した.また,実際のテキストデータを扱って,開発した近似アルゴリズムの実際的な評価を試みた.理論的解析においては,最悪のケースを想定した解析を行っているため,対象となるデータの性質を考慮した実験的評価も重要である.また,多項式時間アルゴリズムとはいえ,その計算量オーダーが高ければ現実のシステムにおいて有用であるとは言い難く,実装上の問題となる.これらの点を検証するため,英文テキストを対象とした文字インデックスを求めるシステムと,これを用いてテキストを圧縮,また検索等の処理を行う試験的なシステムを構築し,実験を行った.その結果,アルゴリズムが十分実用的な時間で大規模なデータに対しても動作すること,理論的に確かめられた圧縮率が得られること,またアルゴリズムの持つ最悪のケースでの誤差よりも一般的にはよい解が得られることなどがわかった.
|