Project Area | Embodied Semiotics: Understanding Gesture and Sign Language in Language Interaction |
Project/Area Number |
22H05015
|
Research Category |
Grant-in-Aid for Transformative Research Areas (B)
|
Allocation Type | Single-year Grants |
Review Section |
Transformative Research Areas, Section (I)
|
Research Institution | The University of Tokyo |
Principal Investigator |
中山 英樹 東京大学, 大学院情報理工学系研究科, 准教授 (00643305)
|
Co-Investigator(Kenkyū-buntansha) |
佐藤 真一 国立情報学研究所, コンテンツ科学研究系, 教授 (90249938)
西田 典起 国立研究開発法人理化学研究所, 革新知能統合研究センター, 研究員 (50890589)
|
Project Period (FY) |
2022-05-20 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥35,880,000 (Direct Cost: ¥27,600,000、Indirect Cost: ¥8,280,000)
Fiscal Year 2024: ¥11,700,000 (Direct Cost: ¥9,000,000、Indirect Cost: ¥2,700,000)
Fiscal Year 2023: ¥11,700,000 (Direct Cost: ¥9,000,000、Indirect Cost: ¥2,700,000)
Fiscal Year 2022: ¥12,480,000 (Direct Cost: ¥9,600,000、Indirect Cost: ¥2,880,000)
|
Keywords | マルチモーダル / 手話認識 / インタラクション / 深層学習 / 大規模言語モデル / 手話翻訳 / 転移学習 / 対話インタラクション / 動画像認識 / 検索拡張 / 対話理解 / 画像生成 / 画像認識 / 自然言語処理 / クロスモーダル / 機械翻訳 |
Outline of Research at the Start |
我々が普段何気なく行っている会話やインタラクションでは、発話に加えジェスチャーや表情など、さまざまな感覚表現を総合的に活用してコミュニケーションをとっています。このように複数の感覚を統合活用する仕組みをマルチモーダルと呼びますが、その仕組みは未だ十分に解明されていません。本研究では、人文系研究者と学際的に連携しながら、マルチモーダルな対話翻訳を可能とするAIを開発することを目的とします。これにより、手話の同時通訳などの先進的なアプリケーションを実現し、インクルーシブな社会の発展に貢献することを目指します。
|
Outline of Annual Research Achievements |
本年度は、手話翻訳を中心に研究を進めた。まず、前年度に引き続き、深層学習による手話翻訳のベースライン手法の追実装と調整を行い、既存の欧米圏の手話翻訳データセットにおいて良好な精度を再現することに成功した。同時に、この実験を通じて得られた知見から、現状の日本手話(JSL)話し言葉コーパスは深層学習を実行するためには小さすぎることが分かった。この問題に対応するために二つの方向性から新たな研究を行った。 第一に、より大規模なJSLの日本語対訳付きコーパスの構築を開始した。具体的には、Youtubeの手話動画を収集し、動画に対応した字幕情報を対訳文として抽出することで、コーパスを構築する。本年度は、おおよそ11万件の手話動画・日本語対訳文のペアデータが得られており、このコーパスの基礎的な分析と手話翻訳モデルの構築を完了した。このようにして自動的に構築されるコーパスは必ずしも良質とは言えないが、量の面で深層学習を下支えすると期待できる。 第二に、豊富にデータが存在するドメインで構築されたモデルを、データが少ないドメインで活用する転移学習のアプローチも研究を進めた。ここでは、データが少ないドメインとしてアイルランド手話を対象とし、さまざまな大規模データセットからの転移性能を調査した[Holmes+, ICCVW'23]。本成果により得られた知見は、整ったデータが少ない日本手話においても有効であると考えられる。 以上に加え、手話翻訳の基盤となる、より一般的かつ基礎的な技術開発においても顕著な進展を得ており、検索拡張による画像キャプショニングへの外部知識の導入[Vo+, CVPR'23][Li+, CVPR'24]や、対話エージェントの個人性に関する調査研究[Chen+, LREC-COLING'24]等の成果論文が採択されている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
日本手話翻訳について、当初目標としていたソフトウェア実装にはまだ至っていないが、データの少なさという本質的な問題に対し、大規模データセット構築と転移学習という二つの方向性を定め、それぞれ研究が進展したことは大きな成果であると考える。特に後者は既に論文採択に至っており、確かな技術的基盤が確立できたといえる。 また、手話翻訳AIを下支えする深層学習基盤技術についても多くの進展があり、複数のトップ国際会議やトップジャーナルへ論文が採択されるなど顕著な成果が得られている。特に、今年度は大規模言語モデルの隆盛により人工知能研究を取り巻く環境が劇的に変化したが、そのような中でいち早く大規模言語モデルを研究に取り込み、手話翻訳へ活用する道筋が得られていることは特筆に値する。 以上総合的に見て、本年度は目標達成へ向けた十分な成果が得られており、順調に研究が進展していると考える。
|
Strategy for Future Research Activity |
次年度は最終年度であるため、これまでに得られた多数の知見や技術的蓄積をとりまとめ研究として完成させ、成果の発表と公開を行う。まず、本年度に初版として開発したWebベース大規模手話動画データセットを質・量の両面で更に向上させ、最終バージョンとして完成させる。特に、現状では日本手話と日本語対応手話の区別がなされていないため、ろう者によるアノテーションを付与することで、より実際のろう者のコミュニケーションに踏み込んだデータセットとしていくことを目指す。完成されたデータセットを利用して、手話認識のためのマルチモーダル基盤モデルを構築する。さらに、基盤モデルを研究領域で提供される「次世代手話コーパス」や「次世代身振りコーパス」などの詳細かつ高品質なデータを用い、本年度開発した転移学習法[Holmes+, ICCVW'23]を適用することで、それぞれのタスクに最適化された高精度なマルチモーダル対話翻訳モデルを完成させる。これに限らず、文脈内学習や検索拡張生成[Li+, CVPR'24]など、小規模データの活用に関してこれまでの成果の中で得られている他の有望な技術も検討し、比較評価を行う。 以上に述べた大規模手話動画データセットやマルチモーダル対話翻訳システムを完成させ、論文投稿を行うと共に、ソフトウェアを一般に公開する。
|