研究課題/領域番号 |
20K21797
|
研究種目 |
挑戦的研究(萌芽)
|
配分区分 | 基金 |
審査区分 |
中区分60:情報科学、情報工学およびその関連分野
|
研究機関 | 早稲田大学 |
研究代表者 |
森 達哉 早稲田大学, 理工学術院, 教授 (60708551)
|
研究期間 (年度) |
2020-07-30 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
6,500千円 (直接経費: 5,000千円、間接経費: 1,500千円)
2021年度: 2,730千円 (直接経費: 2,100千円、間接経費: 630千円)
2020年度: 3,770千円 (直接経費: 2,900千円、間接経費: 870千円)
|
キーワード | ホモグリフ / セキュリティ / 機械学習 / 認知 / 自然言語処理 / 著作権保護 / 文字 / ユニコード / 文字符号 / 文字セキュリティ / ホモグラフ / 符号化文字集合 |
研究開始時の研究の概要 |
漢字の「卜」とカタカナの「 ト」のように、外見が類似しているが異なる符号化文字(ホモグリフ)がもたらすセキュリティ脅威の問題に取り組む。ある文字とホモグリフが取り違われることがあった場合、多くの人間が気が付かない一方、ソフトウェアとして実装された自然言語処理では、必ずその差異が反映される。すなわち、ある文書に対する人間の認知と機械処理の結果にギャップが生じるため、意図的に不正な処理を誘発するセキュリティ脅威が存在する。 本研究では、 (1) 代表的な自然言語処理応用に対するホモグリフ攻撃の脅威分析 (2) 有効な対策手段の開発 を目的とする。
|
研究成果の概要 |
本研究課題は、ラテン文字のaとキリル文字のаのように、形状が似ていて異なる符号が割り当てられている文字のペア「ホモグリフ」に着目した研究である。多くの人間はホモグリフに気づかない一方、自然言語処理ソフトウェアはその違いを反映するため、固有のセキュリティリスクがある。研究の結果、機械翻訳システムのホモグリフ処理に課題があること、およびニューラルネットワークだけでなく、テキストの前処理も結果に大きく影響を及ぼすことを明らかにした。また、本研究課題の応用として、人間には可読なテキストを表示するが、実際には異なる文字符号のデータをブラウザが処理することで、テキストの著作権保護を実現する方式を開発した。
|
研究成果の学術的意義や社会的意義 |
本研究はホモグリフに関連するセキュリティ課題を探求した。その応用範囲は広範であるため、波及的効果が見込める。また、文字はブラウザやアプリケーションなど様々な場面で扱われ、最近注目を集める大規模言語モデルでも重要な役割を果たす。本研究の成果は、文字を扱うアプリケーションのセキュリティリスクを低減し、より安全なデジタル環境を提供するために必要な新たな手段を示している。以上のことから、本研究はその学術的価値に加え、社会的意義も大いに有する。
|