研究概要 |
本年度は,文字分類写像の概念に基づく近似圧縮アルゴリズムについて,以下にあげる研究結果が得られた. まず,(1)テキストデータの復元不可能な情報損失について近似誤差の定式化を行ったところ,文字分類写像は,文字種数を減らすときに失われるシャノン情報量を最小にするものであることが明らかになった.このことから,文字分類写像の定式化の方法が妥当であることが明確になった.次に,(2)組合せ最適化問題として定式化した文字分類を用いる近似圧縮について,多項式時間近似アルゴリズムの設計を行う上での文字分類写像を求める問題の計算量を解析した.結果として,この問題の近似は文字照合としてとらえると可能であるが,相異なる二つの文字列の集合を混同しないという問題として考えると,多項式時間では困難な問題となることが明らかになった.さらに,(3)近似文字列照合機械として非帰還性のオートマトンを用いる方法が一般的であるが,その場合,入出力を完全に特定しなければ最小状態のオートマトンを作ることが計算量的に困難であることがわかった. また,(4)具体的な適用分野で必要とされる処理に圧縮したデータが適しているかを検証するために,遺伝子情報処理のシステムのプロトタイピングを行い,エンジニアリング・ワークステーションで計算実験をおこなった.結果として,実験対象が文字分類の概念に適したものであれば,厳密な文字列の区別においても非常に効果的であることがわかった.
|