研究概要 |
本研究は, 大規模な文書に対する安全かつ高速な全文検索技術の開発を目的として研究を行った. データを暗号化しサーバ上へと保管し, その暗号を解読することなくサーバ上で検索を行うために, 特に文字列照合の観点から理論を展開した. 文書に用いる暗号化には, 暗号化してもなお全文検索が可能であることが求められる. そこで本年度は, 順序機械を用いた暗号化手法の検討を行った. この暗号手法は文書を十分に状態の多い順序機械にかけることでサーバー上での解読を不可能にするものである. また, 検索のためのオートマトンをクライアント側で生成し, 暗号化の際に用いた順序機械と合成することによって得られたオートマトンをサーバ上での検索に用いることができる. これによってサーバー上に格納された暗号化された文書を解読することなく, しかも検索語が何であるかをサーバに与えることなしに検索することが可能となった. また暗号の安全性に関して研究を進めた. 解読手法の一つとして, 多表式暗号の解読手法と同様に自然言語の持つ語の偏りを利用して解読する手法が考えられる. 本手法で用いる順序機械によって文書は一見, 意味のないものとなるが, しかし, そこに真に無作為なものとの差異を見つけることができれば, それを手がかりに解読する可能性がある. 本研究の提案する暗号化手法は多表式暗号とは異なり一定の周期を持つものではないため, それらの解読手法がそのまま用いれるものではないが, やはり頻度の多い語に関してはある種の傾向が見られた. そこで, 文書の持つ基本的性質としての繰り返し構造に注目し, 無作為な文書における繰り返しとその長さの期待値や, 最も繰り返しを持つ文書がどういったものであるかといったことを調べた.
|