正規表現検索に対する安全性の高い効率的な検索可能暗号の開発

Research Project

Project/Area Number	23K11100
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 60070:Information security-related
Research Institution	Shinshu University
Principal Investigator	山本博章信州大学, 学術研究院工学系, 特任教授 (10182643)
Project Period (FY)	2023-04-01 – 2026-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000) Fiscal Year 2025: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000) Fiscal Year 2024: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000) Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Keywords	検索可能暗号 / 正規表現検索 / 正規表現 / 共通鍵暗号方式 / 簡潔データ構造
Outline of Research at the Start	検索可能暗号とは、暗号化されたデータを暗号化したまま検索する技術である。また、正規表現は文字列の集合を簡潔に表現するための記述法であり、テキストに対して高機能な検索を提供する。そのため、多くの分野で利用可能であり、効率的な検索アルゴリズムの開発が行われてきた。しかし、暗号化データを対象とした検索アルゴリズムの研究に関してはほとんど見かけない。一般に、効率的な正規表現検索を実現するために有限オートマトンが使われる。本研究課題は、暗号化データ上で有限オートマトンを安全に模倣する手法を開発し、正規表現検索に向け、安全性の高い効率的な検索可能暗号を実現しようとするものである。
Outline of Annual Research Achievements	本年は下記の事項を実施した。正規表現検索に向けた検索可能暗号の拡張：従来法は閉包演算のない正規表現、すなわち連接、和集合演算のみを持つ正規表現に対する手法であった。このような正規表現が表現できる文字列の集合は有限集合だけのため、検索キーワードは文字列の有限集合に限られる。例えば、特定の文字列を含むすべての文字列を検索しようとすると、検索対象は無限集合となり閉包演算のない正規表現では対応できない。通常の正規表現は、連接、和集合に加え閉包演算を持つのが一般的である。本研究は、閉包演算を含めた3つの演算に対応した正規表現に対する検索可能暗号を開発した。閉包演算を導入するに当たって大きな問題は、de Bruijnグラフはテキスト中の文字列をk-gram（これは、長さkの部分文字列）をノードとし、k-gramのつながりでグラフ化したデータ構造となっていることである。そのため、テキスト中でのk-gramの出現位置の情報が欠落し、閉路のあるグラフが出来上がる。正規表現の閉包演算は文字列の繰り返しを表現できるため、これを有限オートマトンに変換するとループのある有限オートマトンが出来上がる。正規表現検索はこの有限オートマトンを検索に使うため、検索時にループが生じてしまう可能性がある。本研究では、その点を改善するためテキスト中に出現する各k-gramの出現数も暗号化した暗号化索引を作成し、検索時にその情報と検索した各k-gramの回数を比較することによりループを解消する手法を開発した。さらに、de Bruijnグラフを用いた手法は元のテキストデータの位置情報の欠落により検索の偽陽性が発生するため、偽陽性が発生しない手法の開発も行った。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 部分文字列検索の拡張である正規表現検索について、従来の制限された形から閉包演算を含む通常の正規表現検索に拡張することができた。提案法は、従来法と同様にde Bruijnグラフを用いているため、暗号化索引はコンパクトにできるが、検索に関しては偽陽性を生じる。これは、テキストをde Bruijnグラフで符号化すると、暗号化索引のサイズは小さくなるが、テキストから一部の情報が欠落するためである。提案法を簡易的に実装し、その性能を評価した。安全性の理論的評価については今後の検討事項であるが、適応的安全性を満たすと考えている。開発した手法については、情報セキュリティに関する全国大会で発表している。さらに、検索の偽陽性を改善するため、暗号化索引のサイズは増えるが、de Bruijnグラフを用いずにテキストを符号化する手法も提案した。これは、テキストに出現するk-gramの位置情報も考慮してテキストを符号化する方法である。以上よりおおむね順調と判断した。
Strategy for Future Research Activity	正規表現検索に対する検索可能暗号の改良に向け次の点を研究するとともに結果を学会等で発表する。１．各種評価に基づいた正規表現検索可能暗号の開発：de Bruijnグラフを利用した構成法とテキストの全情報を利用した構成法の再構築を実施し、それらの性能を、索引サイズ、検索時間、偽陽性の発生率等多様な観点から詳細に解析する。また、検索効率の向上に関しては実験的評価も併せて行う。２．正規表現検索可能暗号の安全性評価：提案法の安全性について理論的に評価する。特に、どのような情報が漏洩するのかを明確にし、その上での安全性について考察する。安全性については、適応的安全性を満たすことを証明する。また、従来法はサーバ上で有限オートマトンの動作を計算しているため、検索文字列がどこに出現したかの情報が漏れてしまう。この点に関しても、より秘匿性の高い手法について検討する。さらに、提案法も含め多くの手法がサーチパターン、アクセスパターンが漏洩する。このような漏洩情報から検索データの情報が漏れることが知られているため、サーチパターン、アクセスパターンを秘匿するより安全性の高い手法についても検討する。また、提案してきた手法は、有限オートマトンを模倣する形で検索しているため、有限オートマトンの状態遷移が漏れる。このような情報も秘匿できないか検討する。