テキストレベルの手話-日本語ニューラル機械翻訳のための手話表現形式の検討

研究課題

研究課題/領域番号	22K12147
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	岐阜大学
研究代表者	松本忠博岐阜大学, 工学部, 准教授 (00199879)
研究期間 (年度)	2022-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	1,950千円 (直接経費: 1,500千円、間接経費: 450千円) 2024年度: 650千円 (直接経費: 500千円、間接経費: 150千円) 2023年度: 390千円 (直接経費: 300千円、間接経費: 90千円) 2022年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
キーワード	手話 / ニューラル機械翻訳 / 手話表記 / 手話-日本語対訳データ / 手話・日本語対訳データ / 手話翻訳 / 手話テキスト表現 / 手話ベクトル表現
研究開始時の研究の概要	書記体系を持たない手話から日本語への機械翻訳では，翻訳に先立って，手指動作による単語や顔の表情などによる文法標識の認識が必要なため，動作の認識が研究の中心となっている．本研究では翻訳の問題から動作認識の問題を切り離し，言語的な変換処理に研究の焦点をあてるために，手話文に含まれる単語とその語形，非手指要素による文法標識などが正しく認識されることを仮定して，テキスト形式の手話文を原言語文とした手話から日本語へのニューラル機械翻訳を考える．具体的には，手話から日本語へのニューラル機械翻訳のための，手話文のテキスト表現形式，および，ニューラルネットワークへの入力となるベクトル表現形式について検討する．
研究実績の概要	本研究では手話動作が正しく認識できたものと仮定して，テキスト形式の手話から日本語へのニューラル機械翻訳（NMT）を検討している。R5年度は翻訳実験のための対訳データの収集とデータ拡張手法の検討に加え，手話のテキスト表現形式について検討した。対訳データは市販のDVD付き手話検定教本から約900文対（手話単語名の統一やJJSでの表記が完了したものは約520文対）を追加収集した。データ拡張手法としては，mixSeq及びTagged back-translationを試みた。その結果，いずれも翻訳精度の向上は見られず，前年度考案したデータ拡張手法には及ばなかった。また，日英対訳コーパスを用いた多言語翻訳（同一モデルで英日翻訳の訓練と手話-日本語の訓練を実施）により，日本語を生成するデコーダ部の性能向上を図ったが，手元の対訳データに対しては効果が見られなかった。手話のテキスト表現形式については，JJS表記法における手話表記の簡略化やトークン化の方法を変えて訓練とテストを行い，翻訳精度の変化を調べた。JJS表記では手話単語の基本形（辞書形）を，その単語の意味に近い日本語の語句（手話単語名）で表し，基本形からの語形（手の形・位置・動き）の変化をパラメータとして添える。例えば，「あなたが私を見る」に対する手話文はJJSでは手話単語〈見る〉の語形変化として “見る(2→1)” と表記する。一方，手話辞典ではこれを〈見られる〉という別単語として扱う場合がある。翻訳精度を比較したところ，語形変化として表すより，別の単語（の基本形）として扱った方が翻訳精度は高くなった。他の例でも，位置・方向パラメータを省略・簡略化して，文を短く（トークン数を少なく）した方が良い結果が得られた。複合語についても，構成要素に分解することで未知語を減らせるものの，1語として扱った方が翻訳精度は良くなることがわかった。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由前年度と同様，手話-日本語間のニューラル機械翻訳を実用的に行うには，訓練用対訳データの量はまだ極めて少なく，まだまだ拡充の必要がある状態ではあるが，翻訳実験を実施するための最低限の対訳データの収集できていると考えている。データ拡張手法については，新たに試みた手法については効果が見られなかったものの，前年度考案した日本語単言語コーパスから疑似対訳データを生成して拡張する手法の有効性が確認できた。また，手話-日本語機械翻訳のための手話テキスト表現やトークン化方法については，手の位置や方向などの表記要素を省くなどしてトークン数を減らすことが翻訳には有効であることが確認できた。
今後の研究の推進方策	手話の言語的特徴の一つに，手指で表される手話単語の並びに対して，顔の表情や頭の動きなどの非手指要素によって表される文法標識（話題，理由，並立など）が並行して表出されることがあげられる。これをTransformerに入力するトークンのベクトル表現に反映させ，単語と非手指文法標識の埋め込みを連結（または加算）することで，翻訳精度の向上が図れないか検討する。また，当初の計画にはなかったが，LLM（大規模言語モデル）の利用についても検討していきたいと考えている。手話-日本語の対訳データは依然として十分とは言えないため，対訳データの収集を続けるとともに，手話のテキスト表現形式についても改善の余地がないか引き続き検討する予定である。