2020 Fiscal Year Research-status Report
Research on Security of Characters
Project/Area Number |
20K21797
|
Research Institution | Waseda University |
Principal Investigator |
森 達哉 早稲田大学, 理工学術院, 教授 (60708551)
|
Project Period (FY) |
2020-07-30 – 2022-03-31
|
Keywords | 文字符号 / セキュリティ / ホモグリフ |
Outline of Annual Research Achievements |
2020年度は文字処理を伴う機械学習として機械翻訳システムに着目し、入力データとしての文字符号が、機械翻訳システムの出力に与える影響をエンドツーエンドで評価した。ここでエンドツーエンドとは、翻訳の核となるニューラルネットワークのみならず、自然言語処理における文字の置き換え、スペルミスの修正など、様々な前処理を含んでいる。はじめに、今日用いられている8つの代表的なオンライン機械翻訳システム(Google翻訳、DeepL、みらい翻訳、Bing 翻訳、Excite翻訳、Systran、Weblio、CROSS-translater)を対象に、どのような前処理が実行されているかを推定する技術を開発した。これはいくつかの仮説を元に作った入力に対する出力パターンを検査することで実現できる。次に、前処理のパターンを元に、どのような入力文および文字符号を使えば機械翻訳の出力結果に影響が出るかを推定し、推定に基づいて導出したパターンの入力文に対する出力文が、元の入力に対する出力文とどの程度かけ離れているかを評価した。この結果、機械翻訳システムによって、前処理のパターンが大きく異なること、そして、そのパターンによって、攻撃者は異なるパターンを選択可能であることが明らかになった。また、ゼロ幅文字などの特殊な文字が出力に影響を与えるケースが明らかになった。これらの文字は人間は視覚的に認知することができないが、機械翻訳システムなど、自然言語処理を行うソフトウェアの出力に影響を与える。得られた知見を元に、攻撃を防ぐためのデータ前処理方法を提案した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
今年度は文字セキュリティの代表的な例として機械翻訳システムを対象とし、システムに固有な文字列の前処理方法が脆弱性につながることを明らかにした。これまでの関連研究では主として機械翻訳を実現するニューラルネットワークに対する adversarial な入力に対する研究が主流であったが、本研究ではエンドツーエンドの処理に着目することにより、これまでに焦点があたってこなかったデータ処理にも問題があること、そしてその問題はニューラルネットワークに対する攻撃以上に顕著であることを突き止めた。このような知見を元に、さらに文字セキュリティに関する研究対象や研究方法を拡張することが期待できる。この点で有望な進捗を得たと評価した。一方で、応用としては現在のところは機械翻訳にとどまっており、これからのさらなる進捗が望まれる。以上の評価を元に、全体としては「順調に進展している」と自己評価した。
|
Strategy for Future Research Activity |
文字処理を伴うシステムを対象に、本研究で得られた知見(脆弱性の検証と、対策方法の有効性)の評価を実施する。また、個別の応用ごとに対策技術を構築するのではなく、汎用的な対策技術の開発を目指す。具体的には、文字列処理ソフトウェアの撹乱を狙っている可能性が高い特殊文字や、そもそもの言語にそぐわない文字符号が使われているケースなどを自動検出し、サニタイジングを実行するツールの開発を目標とする。
|
Causes of Carryover |
COVID-19に伴い、旅費の支出ができなかったため。次年度以降も引き続き旅費の支出がないと見込まれることから、人件費として活用し、研究の加速を目指す。
|
Research Products
(1 results)