2022 Fiscal Year Annual Research Report
Modality Crossing Based on Latent Structural Understanding in Multimodal Dialogue Translation
Project Area | Embodied Semiotics: Understanding Gesture and Sign Language in Language Interaction |
Project/Area Number |
22H05015
|
Research Institution | The University of Tokyo |
Principal Investigator |
中山 英樹 東京大学, 大学院情報理工学系研究科, 准教授 (00643305)
|
Co-Investigator(Kenkyū-buntansha) |
佐藤 真一 国立情報学研究所, コンテンツ科学研究系, 教授 (90249938)
西田 典起 国立研究開発法人理化学研究所, 革新知能統合研究センター, 特別研究員 (50890589)
|
Project Period (FY) |
2022-05-20 – 2025-03-31
|
Keywords | 手話認識 / インタラクション / 画像生成 / 画像認識 / マルチモーダル / 自然言語処理 |
Outline of Annual Research Achievements |
初年度である本年度は、研究を推進するためのチーム構築、ソフト・ハード両面の環境準備、領域全体の意識合わせに基づく研究課題の掘り出しを目標とし、大きく分けて以下に示す三つの成果を得た。 1.本研究を推進するための体制を整えた。まず、研究の主力となる特任研究員と博士学生RAを選定し雇用すると共に、必要な計算機の購入や環境構築を行った。また、国立情報学研究所が保有する既存データセットである「未来館SCコーパス」および「日本手話話し言葉コーパス」を共有するため、他計画研究班と協力しながら倫理審査等の所定の手続きや、データを安全に保管するための環境構築を行い、データ共有を完了した。同時に、本計画班内での定例ミーティングや、他計画班のメンバーも加えた拡大ミーティングを通じ、これらのコーパスについての理解を深めると共に、今後の研究について問題意識のすり合わせを行った。 2.情報分野における手話認識やインタラクション認識の既存技術・データセットについて網羅的な調査を行った。本年度は特に手話認識に注力し、いくつかのベースラインの実装を行い問題の難しさを把握するとともに、研究として挑戦的な方向性を模索した。また、ロバストな手話認識を実現するために入力映像の量子化を行うアプローチを着想し、プロトタイプの実装を行い基礎的な評価を行った。 3.画像・動画像の認識や生成に関する基礎的な手法開発を精力的に進めた。特に動画像生成に関しては、ストーリー可視化(入力テキストに対応するキーフレーム画像列の生成)[Chen+, EMNLP'22]や、フレーム補間[Xiao+, TMM'22]など顕著な成果が得られた。これらは、本研究で実現を目指すアプリケーションの一つである手話生成において、滑らかな手話動画を生成するための重要な基盤技術になると期待できる。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
研究を遂行できる適切なスキルを持った研究員の人選や、コーパス共有のための倫理審査に当初計画よりも時間を要したため、コーパスを活用した具体的な研究の着手が遅れたことが主な理由である。 一方、研究実績で述べた通り、オープンデータを用いた手話認識の手法開発や、動画像認識・生成等の基盤技術の開発は十分に進められており、全体としては遅れの程度は軽微であると考える。
|
Strategy for Future Research Activity |
1.本年度に得た知見を元に、リアルタイム手話認識・手話生成の実現を目指し、手法の具体化を進める。データ拡張や転移学習、大規模言語モデルの利用が有望なアプローチと考えられ、これらの実装評価を進める。また、WMTの手話翻訳タスクへの参加も睨みながら、世界的に競争力のあるソフトウェアを実現すること目指す。 2.「未来館SCコーパス」および「日本手話話し言葉コーパス」の分析を進め、これらに特徴的なアノテーションデータを活用した新規性の高い研究を推進する。特に、日本手話話し言葉コーパスのように手話者同士の対話を収めたデータセットは情報分野ではこれまで例がないため、対話における手話の工学的な分析という新しい領域を切り開くことが期待できる。一方、コーパスの大きさは一般的な深層学習を実行するためにはかなり小さいため、先に述べた転移学習や事前学習モデルなどの技術を手話の領域へ適切に導入することが鍵になると考えられる。 3.上記1・2を通じて得られた知見をもとに、工学的観点からデータに付与することが望ましいアノテーションに関して、研究領域で新規開発するコーパスの設計へフィードバックする。
|