本研究の目的は日本語のオノマトペを適切に機械翻訳(今回は英語)する方法を探り出すことである。英語にはオノマトペ自体が少ないのでオノマトペの機械翻訳は難しい。本研究により適切な機械翻訳結果を出力し円滑なコミュニケーションが図れることが期待できる。具体的なフローは、1. 例文収集および正解データをデータベース化、2. オノマトペの抽出と文章からの抜き出し、3. オノマトペのみを機械学習により翻訳するとともに一方で残りの文章を機械翻訳、4. 機械翻訳されたオノマトペ部分の元の文章への組み込み、とした。研究計画の段階では汎用性を高めるために対象をすべてのオノマトペにする予定であったが、機械学習(教師あり学習の事例ベース推論)の正解データを作成するのに膨大なコストが掛かってしまうため、「ごろごろ」という語に限定し実験した。この語を選定した理由として「ごろごろ」という語は擬音的・擬態的意味を合わせて6通りの使用例があり、研究目的の正しい訳し分け結果を得るに最適だと判断したためである。ただし今回の実験ではあまり良い結果は得られなかった。原因として事例ベースに含まれる正解データが少なかったためと予測し、現在正解データ数を増やす作業をおこなっている。一方でルールベース機械翻訳では正しく出力できなかったものを上手く処理できた例も確認できたので、事例となる正解データ数を拡張すれば精度も高まるものと思われる。本提案手法は例外処理への対応がルールベース機械翻訳に比べ精度が高いので、今後はルールベース機械翻訳と本提案手法とを掛け合わせたシステムの構築も視野に入れる。
|