本研究課題は、ラテン文字のaとキリル文字のаのように、形状が似ていて異なる符号が割り当てられている文字のペア「ホモグリフ」に着目した研究である。多くの人間はホモグリフに気づかない一方、自然言語処理ソフトウェアはその違いを反映するため、固有のセキュリティリスクがある。研究の結果、機械翻訳システムのホモグリフ処理に課題があること、およびニューラルネットワークだけでなく、テキストの前処理も結果に大きく影響を及ぼすことを明らかにした。また、本研究課題の応用として、人間には可読なテキストを表示するが、実際には異なる文字符号のデータをブラウザが処理することで、テキストの著作権保護を実現する方式を開発した。
|