研究課題/領域番号 |
22K12147
|
研究機関 | 岐阜大学 |
研究代表者 |
松本 忠博 岐阜大学, 工学部, 准教授 (00199879)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
キーワード | 手話 / ニューラル機械翻訳 / 手話表記 / 手話・日本語対訳データ |
研究実績の概要 |
本研究では手話翻訳の問題から手話動作認識の問題を切り離して手話-日本語間の言語的な変換処理に研究の焦点をあてるために,手話文に含まれる単語とその語形変化,非手指要素による文法標識などが正しく認識されたものと仮定して,テキスト形式の手話文を原言語文とした手話から日本語へのニューラル機械翻訳(NMT)を考え,NMTに適した手話のテキスト表現形式やベクトル表現形式などについて検討する。 書記体系を持たない手話にはNMTに利用可能な言語データがほとんど存在しないため,当該年度は主に対訳データの収集とデータ拡張手法の検討を行った。手話の学習教材と日本語-手話辞典から対訳文と対訳フレーズを合計約13700件収集し,訓練・検証・テスト用データセットを作成した。手話のテキスト表現としては基本的にJJS表記法を用いた。手話単語を表す日本語の語句(手話単語名)は教材によってまちまちであるため,基本的に『日本語-手話辞典』における手話イラスト名を用い,辞書にない単語やパントマイム的な表現には適宜名前を付けた。 データ拡張手法としては,類義語・対義語の置換による方法と,日本語単言語データから疑似手話文を生成する手法を試み,拡張前後の翻訳精度を比較した。類義語・対義語の置換による疑似対訳文の生成では,単語置換による不自然な日本語文を除外するためにMLM Scoringを用い,一定のスコアが得られた文だけを訓練データとして用いた。実験の結果,同義語置換より対義語置換によるデータ拡張の方が良い結果が得られた。日本語単言語コーパスを利用した疑似対訳文の生成では,日本語文中の助詞の削除と用言の終止形への変換などの簡単な処理により疑似手話文を生成し,得られた疑似対訳データを訓練データに加えて翻訳実験を行ったところ,言語資源が少ない現状では逆翻訳による疑似対訳文生成手法よりも良い結果が得られることが確認できた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
手話-日本語間のニューラル機械翻訳を実用的に行うには,現状では訓練用対訳データの量は極めて少なく,まだまだ拡充の必要がある状態ではあるが,翻訳実験を実施するための最低限のサイズの対訳コーパスの構築は行えたと考えている。また,2種類のデータ拡張手法の有効性について検証することができた。当該年度の研究成果の内容については,その一部しか外部で発表できなかったが,詳細は研究を分担した学生の以下の学位論文にまとめられている:『手話-日本語機械翻訳のための対訳コーパスの構築と日本語単言語データの利用』,『単語置換による日本語-日本手話表記対訳データの拡張手法の検討』(いずれも岐阜大学大学院 修士論文 2023年2月)。
|
今後の研究の推進方策 |
まず,引き続き対訳文を収集して実験用データの拡充を図る必要がある。これまでに収集した対訳データの大半は辞書から得た対訳フレーズであり,対訳「文」はまだ少ないため,手話のビデオ教材等から対訳文対を人手で収集し,対訳データの拡充を進める。 これまで手話のテキスト表現形式としてJJS表記法を用いてきたが,JJS表記法は日本語から手話への翻訳を想定して設計されたものであるため,手話から日本語への翻訳を目的としたときに改善すべき点がないか検討するとともに,NMTでの入力単位(トークン化)についても実験を通して検討する。 手話の言語的特徴の一つに,手指で表される手話単語の並びに対して,顔の表情や頭の動きなどの非手指要素によって表される文法標識(話題,理由,並立など)が並行して表出されることがあげられる。これをTransformerに入力するトークンのベクトル表現に反映させ,単語と非手指文法標識の埋め込みを連結(または加算)することで,翻訳精度の向上が図れないか検討する。 また,大量に存在する日本語単言語コーパスを利用した翻訳精度の改善方法についても引き続き検討していく。
|