• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

マルチモーダル対話翻訳における潜在的構造理解に基づくモダリティ横断

計画研究

研究領域言語相互行為における身振りと手話を対象とした身体記号学
研究課題/領域番号 22H05015
研究種目

学術変革領域研究(B)

配分区分補助金
審査区分 学術変革領域研究区分(Ⅰ)
研究機関東京大学

研究代表者

中山 英樹  東京大学, 大学院情報理工学系研究科, 准教授 (00643305)

研究分担者 佐藤 真一  国立情報学研究所, コンテンツ科学研究系, 教授 (90249938)
西田 典起  国立研究開発法人理化学研究所, 革新知能統合研究センター, 研究員 (50890589)
研究期間 (年度) 2022-05-20 – 2025-03-31
研究課題ステータス 交付 (2024年度)
配分額 *注記
35,880千円 (直接経費: 27,600千円、間接経費: 8,280千円)
2024年度: 11,700千円 (直接経費: 9,000千円、間接経費: 2,700千円)
2023年度: 11,700千円 (直接経費: 9,000千円、間接経費: 2,700千円)
2022年度: 12,480千円 (直接経費: 9,600千円、間接経費: 2,880千円)
キーワードマルチモーダル / 手話認識 / インタラクション / 深層学習 / 大規模言語モデル / 手話翻訳 / 転移学習 / 対話インタラクション / 動画像認識 / 検索拡張 / 対話理解 / 画像生成 / 画像認識 / 自然言語処理 / クロスモーダル / 機械翻訳
研究開始時の研究の概要

我々が普段何気なく行っている会話やインタラクションでは、発話に加えジェスチャーや表情など、さまざまな感覚表現を総合的に活用してコミュニケーションをとっています。このように複数の感覚を統合活用する仕組みをマルチモーダルと呼びますが、その仕組みは未だ十分に解明されていません。本研究では、人文系研究者と学際的に連携しながら、マルチモーダルな対話翻訳を可能とするAIを開発することを目的とします。これにより、手話の同時通訳などの先進的なアプリケーションを実現し、インクルーシブな社会の発展に貢献することを目指します。

研究実績の概要

本年度は、手話翻訳を中心に研究を進めた。まず、前年度に引き続き、深層学習による手話翻訳のベースライン手法の追実装と調整を行い、既存の欧米圏の手話翻訳データセットにおいて良好な精度を再現することに成功した。同時に、この実験を通じて得られた知見から、現状の日本手話(JSL)話し言葉コーパスは深層学習を実行するためには小さすぎることが分かった。この問題に対応するために二つの方向性から新たな研究を行った。
第一に、より大規模なJSLの日本語対訳付きコーパスの構築を開始した。具体的には、Youtubeの手話動画を収集し、動画に対応した字幕情報を対訳文として抽出することで、コーパスを構築する。本年度は、おおよそ11万件の手話動画・日本語対訳文のペアデータが得られており、このコーパスの基礎的な分析と手話翻訳モデルの構築を完了した。このようにして自動的に構築されるコーパスは必ずしも良質とは言えないが、量の面で深層学習を下支えすると期待できる。
第二に、豊富にデータが存在するドメインで構築されたモデルを、データが少ないドメインで活用する転移学習のアプローチも研究を進めた。ここでは、データが少ないドメインとしてアイルランド手話を対象とし、さまざまな大規模データセットからの転移性能を調査した[Holmes+, ICCVW'23]。本成果により得られた知見は、整ったデータが少ない日本手話においても有効であると考えられる。
以上に加え、手話翻訳の基盤となる、より一般的かつ基礎的な技術開発においても顕著な進展を得ており、検索拡張による画像キャプショニングへの外部知識の導入[Vo+, CVPR'23][Li+, CVPR'24]や、対話エージェントの個人性に関する調査研究[Chen+, LREC-COLING'24]等の成果論文が採択されている。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

日本手話翻訳について、当初目標としていたソフトウェア実装にはまだ至っていないが、データの少なさという本質的な問題に対し、大規模データセット構築と転移学習という二つの方向性を定め、それぞれ研究が進展したことは大きな成果であると考える。特に後者は既に論文採択に至っており、確かな技術的基盤が確立できたといえる。
また、手話翻訳AIを下支えする深層学習基盤技術についても多くの進展があり、複数のトップ国際会議やトップジャーナルへ論文が採択されるなど顕著な成果が得られている。特に、今年度は大規模言語モデルの隆盛により人工知能研究を取り巻く環境が劇的に変化したが、そのような中でいち早く大規模言語モデルを研究に取り込み、手話翻訳へ活用する道筋が得られていることは特筆に値する。
以上総合的に見て、本年度は目標達成へ向けた十分な成果が得られており、順調に研究が進展していると考える。

今後の研究の推進方策

次年度は最終年度であるため、これまでに得られた多数の知見や技術的蓄積をとりまとめ研究として完成させ、成果の発表と公開を行う。まず、本年度に初版として開発したWebベース大規模手話動画データセットを質・量の両面で更に向上させ、最終バージョンとして完成させる。特に、現状では日本手話と日本語対応手話の区別がなされていないため、ろう者によるアノテーションを付与することで、より実際のろう者のコミュニケーションに踏み込んだデータセットとしていくことを目指す。完成されたデータセットを利用して、手話認識のためのマルチモーダル基盤モデルを構築する。さらに、基盤モデルを研究領域で提供される「次世代手話コーパス」や「次世代身振りコーパス」などの詳細かつ高品質なデータを用い、本年度開発した転移学習法[Holmes+, ICCVW'23]を適用することで、それぞれのタスクに最適化された高精度なマルチモーダル対話翻訳モデルを完成させる。これに限らず、文脈内学習や検索拡張生成[Li+, CVPR'24]など、小規模データの活用に関してこれまでの成果の中で得られている他の有望な技術も検討し、比較評価を行う。
以上に述べた大規模手話動画データセットやマルチモーダル対話翻訳システムを完成させ、論文投稿を行うと共に、ソフトウェアを一般に公開する。

報告書

(2件)
  • 2023 実績報告書
  • 2022 実績報告書
  • 研究成果

    (45件)

すべて 2024 2023 2022 その他

すべて 国際共同研究 (10件) 雑誌論文 (18件) (うち国際共著 13件、 査読あり 18件、 オープンアクセス 14件) 学会発表 (15件) (うち国際学会 15件、 招待講演 1件) 図書 (1件) 備考 (1件)

  • [国際共同研究] トリニティ・カレッジ・ダブリン(アイルランド)

    • 関連する報告書
      2023 実績報告書
  • [国際共同研究] ゲント大学(ベルギー)

    • 関連する報告書
      2023 実績報告書
  • [国際共同研究] トレント大学(イタリア)

    • 関連する報告書
      2023 実績報告書
  • [国際共同研究] 武漢大学(中国)

    • 関連する報告書
      2023 実績報告書
  • [国際共同研究] 南洋理工大学(シンガポール)

    • 関連する報告書
      2023 実績報告書
  • [国際共同研究]

    • 関連する報告書
      2023 実績報告書
  • [国際共同研究] Wuhan University/Wuhan University of Sci. Tech./Sichuan University(中国)

    • 関連する報告書
      2022 実績報告書
  • [国際共同研究] Nanyang Technological University(シンガポール)

    • 関連する報告書
      2022 実績報告書
  • [国際共同研究] University of California, Los Angeles(米国)

    • 関連する報告書
      2022 実績報告書
  • [国際共同研究] National Yang Ming Chiao Tung Univ.(台湾)/National Taiwan University(台湾)/National Tsing Hua University(台湾)(その他の国・地域)

    • 関連する報告書
      2022 実績報告書
  • [雑誌論文] Label Augmentation as Inter-class Data Augmentation for Conditional Image Synthesis with Imbalanced Data2024

    • 著者名/発表者名
      Katsumata Kai、Vo Duc Minh、Nakayama Hideki
    • 雑誌名

      2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)

      巻: - ページ: 4932-4941

    • DOI

      10.1109/wacv57701.2024.00487

    • 関連する報告書
      2023 実績報告書
    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and Uncurated Unlabeled Data2024

    • 著者名/発表者名
      Katsumata Kai、Vo Duc Minh、Harada Tatsuya、Nakayama Hideki
    • 雑誌名

      2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)

      巻: - ページ: 5311-5320

    • DOI

      10.1109/wacv57701.2024.00524

    • 関連する報告書
      2023 実績報告書
    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Recent Trends in Personalized Dialogue Generation: A Review of Datasets, Methodologies, and Evaluations2024

    • 著者名/発表者名
      Yi-Pei Chen, Noriki Nishida, Hideki Nakayama, Yuji Matsumoto
    • 雑誌名

      Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING)

      巻: -

    • 関連する報告書
      2023 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] EVCap: Retrieval-Augmented Image Captioning with External Visual-Name Memory for Open-World Comprehension2024

    • 著者名/発表者名
      Jiaxuan Li, Duc Minh Vo, Akihiro Sugimoto, Hideki Nakayama
    • 雑誌名

      Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)

      巻: -

    • 関連する報告書
      2023 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] シソーラスの階層的構造を利用した弱教師あり固有表現抽出2024

    • 著者名/発表者名
      芝原隆善, 山田育矢, 西田典起, 寺西裕紀, 古崎昇司, 松本裕治
    • 雑誌名

      自然言語処理

      巻: 31巻3号

    • 関連する報告書
      2023 実績報告書
    • 査読あり
  • [雑誌論文] Improving Deep Metric learning via Self-distillation and Online Batch Diffusion Process2024

    • 著者名/発表者名
      Zelong Zeng, Fan Yang, Hong Liu, Shin'ichi Satoh
    • 雑誌名

      Visual Intelligence

      巻: -

    • 関連する報告書
      2023 実績報告書
    • 査読あり
  • [雑誌論文] LED: A Dataset for Life Event Extraction from Dialogs2023

    • 著者名/発表者名
      Yi-Pei Chen, An-Zi Yen, Hen-Hsen Huang, Hideki Nakayama, Hsin-Hsi Chen
    • 雑誌名

      Findings of the Association for Computational Linguistics: EACL 2023

      巻: - ページ: 384-398

    • DOI

      10.18653/v1/2023.findings-eacl.29

    • 関連する報告書
      2023 実績報告書 2022 実績報告書
    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] A-CAP: Anticipation Captioning with Commonsense Knowledge2023

    • 著者名/発表者名
      Vo Duc Minh、Luong Quoc-An、Sugimoto Akihiro、Nakayama Hideki
    • 雑誌名

      2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)

      巻: 1 ページ: 10824-10833

    • DOI

      10.1109/cvpr52729.2023.01042

    • 関連する報告書
      2023 実績報告書 2022 実績報告書
    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] From Scarcity to Understanding: Transfer Learning for the Extremely Low Resource Irish Sign Language2023

    • 著者名/発表者名
      Ruth Holmes, Ellen Rushe, Mathieu De Coster, Maxim Bonnaerens, Shin'ichi Satoh, Akihiro Sugimoto, Anthony Ventresque
    • 雑誌名

      Proceedings of the 2023 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW)

      巻: - ページ: 2000-2009

    • DOI

      10.1109/iccvw60793.2023.00215

    • 関連する報告書
      2023 実績報告書
    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Referring Image Segmentation via Joint Mask Contextual Embedding Learning and Progressive Alignment Network2023

    • 著者名/発表者名
      Ziling Huang, Shin'ichi Satoh
    • 雑誌名

      Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing

      巻: - ページ: 7753-7762

    • DOI

      10.18653/v1/2023.emnlp-main.481

    • 関連する報告書
      2023 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Beyond Domain Gap: Exploiting Subjectivity in Sketch-Based Person Retrieval2023

    • 著者名/発表者名
      Lin Kejun, Zhixiang Wang, Zheng Wang, Yinqiang Zheng, Shin'ichi Satoh
    • 雑誌名

      Proceedings of the 31st ACM International Conference on Multimedia

      巻: - ページ: 2078-2089

    • DOI

      10.1145/3581783.3611732

    • 関連する報告書
      2023 実績報告書
    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Mitigating robust overfitting via self-residual-calibration regularization2023

    • 著者名/発表者名
      Liu Hong、Zhong Zhun、Sebe Nicu、Satoh Shin'ichi
    • 雑誌名

      Artificial Intelligence

      巻: 317 ページ: 103877-103877

    • DOI

      10.1016/j.artint.2023.103877

    • 関連する報告書
      2023 実績報告書
    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Progressive Motion Boosting for Video Frame Interpolation2023

    • 著者名/発表者名
      Jing Xiao, Kangmin Xu, Mengshun Hu, Liang Liao, Zheng Wang, Chia-Wen Lin, Mi Wang, Shin'ichi Satoh
    • 雑誌名

      IEEE Transactions on Multimedia

      巻: 25 ページ: 8076-8090

    • DOI

      10.1109/tmm.2022.3233310

    • 関連する報告書
      2023 実績報告書 2022 実績報告書
    • 査読あり / 国際共著
  • [雑誌論文] Indirect Adversarial Losses via an Intermediate Distribution for Training GANs2023

    • 著者名/発表者名
      Rui Yang, Duc Minh Vo, Hideki Nakayama
    • 雑誌名

      Proceedings of the 2023 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)

      巻: - ページ: 4641-4650

    • DOI

      10.1109/wacv56688.2023.00463

    • 関連する報告書
      2022 実績報告書
    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Towards Robust Person Re-identification by Defending Against Universal Attackers2023

    • 著者名/発表者名
      Fengxiang Yang, Juanjuan Weng, Zhun Zhong, Hong Liu, Zheng Wang, Zhiming Luo, Donglin Cao, Shaozi Li, Shin'ichi Satoh, Nicu Sebe
    • 雑誌名

      IEEE Transactions on Pattern Analysis and Machine Intelligence

      巻: 45 ページ: 5218-5235

    • DOI

      10.1109/tpami.2022.3199013

    • 関連する報告書
      2022 実績報告書
    • 査読あり / 国際共著
  • [雑誌論文] Only a Few Classes Confusing: Pixel-wise Candidate Labels Disambiguation for Foggy Scene Understanding2023

    • 著者名/発表者名
      Liang Liao, Chen Wenyi, Zhen Zhang, Jing Xiao, Yan Yang, Chia-Wen Lin, and Shin'ichi Satoh
    • 雑誌名

      Proceedings of the 37th AAAI Conference on Artificial Intelligence (AAAI)

      巻: -

    • 関連する報告書
      2022 実績報告書
    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Character-Centric Story Visualization via Visual Planning and Token Alignment2022

    • 著者名/発表者名
      Hong Chen, Rujun Han, Te-Lin Wu, Hideki Nakayama, Nanyun Peng
    • 雑誌名

      Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing (EMNLP)

      巻: - ページ: 8259-8272

    • 関連する報告書
      2022 実績報告書
    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Towards Causality Inference for Very Important Person Localization2022

    • 著者名/発表者名
      Xiao Wang, Zheng Wang, Wu Liu, Xin Xu, Qijun Zhao, Shin'ichi Satoh
    • 雑誌名

      Proceedings of the 30th ACM International Conference on Multimedia (ACMMM)

      巻: - ページ: 6618-6626

    • DOI

      10.1145/3503161.3548014

    • 関連する報告書
      2022 実績報告書
    • 査読あり / オープンアクセス / 国際共著
  • [学会発表] Label Augmentation as Inter-class Data Augmentation for Conditional Image Synthesis with Imbalanced Data2024

    • 著者名/発表者名
      Kai Katsumata, Duc Minh Vo, Hideki Nakayama
    • 学会等名
      The 2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and Uncurated Unlabeled Data2024

    • 著者名/発表者名
      Kai Katsumata, Duc Minh Vo, Tatsuya Harada, Hideki Nakayama
    • 学会等名
      The 2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] Recent Trends in Personalized Dialogue Generation: A Review of Datasets, Methodologies, and Evaluations2024

    • 著者名/発表者名
      Yi-Pei Chen, Noriki Nishida, Hideki Nakayama, Yuji Matsumoto
    • 学会等名
      The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING)
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] EVCap: Retrieval-Augmented Image Captioning with External Visual-Name Memory for Open-World Comprehension2024

    • 著者名/発表者名
      Jiaxuan Li, Duc Minh Vo, Akihiro Sugimoto, Hideki Nakayama
    • 学会等名
      The 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] LLM as a Scorer: The Impact of Output Order on Dialogue Evaluation2024

    • 著者名/発表者名
      Kuanchao Chu, Yi-Pei Chen, Hideki Nakayama
    • 学会等名
      AAAI 2024 Spring Symposium on User-Aligned Assessment of Adaptive AI Systems
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] A-CAP: Anticipation Captioning with Commonsense Knowledge2023

    • 著者名/発表者名
      Duc Minh Vo, Quoc-An Luong, Akihiro Sugimoto, Hideki Nakayama
    • 学会等名
      The 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
    • 関連する報告書
      2023 実績報告書 2022 実績報告書
    • 国際学会
  • [学会発表] From Scarcity to Understanding: Transfer Learning for the Extremely Low Resource Irish Sign Language2023

    • 著者名/発表者名
      Ruth Holmes, Ellen Rushe, Mathieu De Coster, Maxim Bonnaerens, Shin'ichi Satoh, Akihiro Sugimoto, Anthony Ventresque
    • 学会等名
      The 11th Workshop on Assistive Computer Vision and Robotics
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] Referring Image Segmentation via Joint Mask Contextual Embedding Learning and Progressive Alignment Network2023

    • 著者名/発表者名
      Ziling Huang, Shin'ichi Satoh
    • 学会等名
      The 2023 Conference on Empirical Methods in Natural Language Processing
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] Beyond Domain Gap: Exploiting Subjectivity in Sketch-Based Person Retrieval2023

    • 著者名/発表者名
      Lin Kejun, Zhixiang Wang, Zheng Wang, Yinqiang Zheng, Shin'ichi Satoh
    • 学会等名
      The 31st ACM International Conference on Multimedia
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] WalkingDynamicsH36M: a Benchmarking Dataset for Long-term Motion and Trajectory Forecasting2023

    • 著者名/発表者名
      Cecilia Curreli, Andreu Girbau, and Shin'ichi Satoh
    • 学会等名
      The 5th IEEE/CVF CVPR Precognition Workshop
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] Indirect Adversarial Losses via an Intermediate Distribution for Training GANs2023

    • 著者名/発表者名
      Rui Yang, Duc Minh Vo, Hideki Nakayama
    • 学会等名
      The 2023 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] Only a Few Classes Confusing: Pixel-wise Candidate Labels Disambiguation for Foggy Scene Understanding2023

    • 著者名/発表者名
      Liang Liao, Chen Wenyi, Zhen Zhang, Jing Xiao, Yan Yang, Chia-Wen Lin, and Shin'ichi Satoh
    • 学会等名
      The 37th AAAI Conference on Artificial Intelligence (AAAI)
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] Character-Centric Story Visualization via Visual Planning and Token Alignment2022

    • 著者名/発表者名
      Hong Chen, Rujun Han, Te-Lin Wu, Hideki Nakayama, Nanyun Peng
    • 学会等名
      The 2022 Conference on Empirical Methods in Natural Language Processing (EMNLP)
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] Towards Causality Inference for Very Important Person Localization2022

    • 著者名/発表者名
      Xiao Wang, Zheng Wang, Wu Liu, Xin Xu, Qijun Zhao, Shin'ichi Satoh
    • 学会等名
      The 30th ACM International Conference on Multimedia (ACMMM)
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] Incorporating External Knowledge for Vision and Language Systems2022

    • 著者名/発表者名
      Hideki Nakayama
    • 学会等名
      2nd Workshop on Trends and Advances in Machine Learning and Automated Reasoning for Intelligent Robots and Systems (in conjunction with IROS 2022)
    • 関連する報告書
      2022 実績報告書
    • 国際学会 / 招待講演
  • [図書] 深層学習からマルチモーダル情報処理へ2022

    • 著者名/発表者名
      中山 英樹、二反田 篤史、田村 晃裕、井上 中順、牛久 祥孝
    • 総ページ数
      248
    • 出版者
      サイエンス社
    • ISBN
      9784781915548
    • 関連する報告書
      2022 実績報告書
  • [備考] 身体記号学 領域ホームページ

    • URL

      https://research.nii.ac.jp/EmSemi/index.html

    • 関連する報告書
      2023 実績報告書

URL: 

公開日: 2022-05-25   更新日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi