研究領域 | 言語相互行為における身振りと手話を対象とした身体記号学 |
研究課題/領域番号 |
22H05015
|
研究種目 |
学術変革領域研究(B)
|
配分区分 | 補助金 |
審査区分 |
学術変革領域研究区分(Ⅰ)
|
研究機関 | 東京大学 |
研究代表者 |
中山 英樹 東京大学, 大学院情報理工学系研究科, 准教授 (00643305)
|
研究分担者 |
佐藤 真一 国立情報学研究所, コンテンツ科学研究系, 教授 (90249938)
西田 典起 国立研究開発法人理化学研究所, 革新知能統合研究センター, 研究員 (50890589)
|
研究期間 (年度) |
2022-05-20 – 2025-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
35,880千円 (直接経費: 27,600千円、間接経費: 8,280千円)
2024年度: 11,700千円 (直接経費: 9,000千円、間接経費: 2,700千円)
2023年度: 11,700千円 (直接経費: 9,000千円、間接経費: 2,700千円)
2022年度: 12,480千円 (直接経費: 9,600千円、間接経費: 2,880千円)
|
キーワード | マルチモーダル / 手話認識 / インタラクション / 深層学習 / 大規模言語モデル / 手話翻訳 / 対話理解 / 画像生成 / 画像認識 / 自然言語処理 / クロスモーダル / 機械翻訳 |
研究開始時の研究の概要 |
我々が普段何気なく行っている会話やインタラクションでは、発話に加えジェスチャーや表情など、さまざまな感覚表現を総合的に活用してコミュニケーションをとっています。このように複数の感覚を統合活用する仕組みをマルチモーダルと呼びますが、その仕組みは未だ十分に解明されていません。本研究では、人文系研究者と学際的に連携しながら、マルチモーダルな対話翻訳を可能とするAIを開発することを目的とします。これにより、手話の同時通訳などの先進的なアプリケーションを実現し、インクルーシブな社会の発展に貢献することを目指します。
|
研究実績の概要 |
初年度である本年度は、研究を推進するためのチーム構築、ソフト・ハード両面の環境準備、領域全体の意識合わせに基づく研究課題の掘り出しを目標とし、大きく分けて以下に示す三つの成果を得た。 1.本研究を推進するための体制を整えた。まず、研究の主力となる特任研究員と博士学生RAを選定し雇用すると共に、必要な計算機の購入や環境構築を行った。また、国立情報学研究所が保有する既存データセットである「未来館SCコーパス」および「日本手話話し言葉コーパス」を共有するため、他計画研究班と協力しながら倫理審査等の所定の手続きや、データを安全に保管するための環境構築を行い、データ共有を完了した。同時に、本計画班内での定例ミーティングや、他計画班のメンバーも加えた拡大ミーティングを通じ、これらのコーパスについての理解を深めると共に、今後の研究について問題意識のすり合わせを行った。 2.情報分野における手話認識やインタラクション認識の既存技術・データセットについて網羅的な調査を行った。本年度は特に手話認識に注力し、いくつかのベースラインの実装を行い問題の難しさを把握するとともに、研究として挑戦的な方向性を模索した。また、ロバストな手話認識を実現するために入力映像の量子化を行うアプローチを着想し、プロトタイプの実装を行い基礎的な評価を行った。 3.画像・動画像の認識や生成に関する基礎的な手法開発を精力的に進めた。特に動画像生成に関しては、ストーリー可視化(入力テキストに対応するキーフレーム画像列の生成)[Chen+, EMNLP'22]や、フレーム補間[Xiao+, TMM'22]など顕著な成果が得られた。これらは、本研究で実現を目指すアプリケーションの一つである手話生成において、滑らかな手話動画を生成するための重要な基盤技術になると期待できる。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
研究を遂行できる適切なスキルを持った研究員の人選や、コーパス共有のための倫理審査に当初計画よりも時間を要したため、コーパスを活用した具体的な研究の着手が遅れたことが主な理由である。 一方、研究実績で述べた通り、オープンデータを用いた手話認識の手法開発や、動画像認識・生成等の基盤技術の開発は十分に進められており、全体としては遅れの程度は軽微であると考える。
|
今後の研究の推進方策 |
1.本年度に得た知見を元に、リアルタイム手話認識・手話生成の実現を目指し、手法の具体化を進める。データ拡張や転移学習、大規模言語モデルの利用が有望なアプローチと考えられ、これらの実装評価を進める。また、WMTの手話翻訳タスクへの参加も睨みながら、世界的に競争力のあるソフトウェアを実現すること目指す。 2.「未来館SCコーパス」および「日本手話話し言葉コーパス」の分析を進め、これらに特徴的なアノテーションデータを活用した新規性の高い研究を推進する。特に、日本手話話し言葉コーパスのように手話者同士の対話を収めたデータセットは情報分野ではこれまで例がないため、対話における手話の工学的な分析という新しい領域を切り開くことが期待できる。一方、コーパスの大きさは一般的な深層学習を実行するためにはかなり小さいため、先に述べた転移学習や事前学習モデルなどの技術を手話の領域へ適切に導入することが鍵になると考えられる。 3.上記1・2を通じて得られた知見をもとに、工学的観点からデータに付与することが望ましいアノテーションに関して、研究領域で新規開発するコーパスの設計へフィードバックする。
|