2023 Fiscal Year Annual Research Report
AI on human motions for digital persona
Project/Area Number |
21H03520
|
Allocation Type | Single-year Grants |
Research Institution | Osaka University |
Principal Investigator |
高野 渉 大阪大学, 数理・データ科学教育研究センター, 特任教授(常勤) (30512090)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Keywords | 人工知能 / ロボティクス / 運動 / 機械学習 |
Outline of Annual Research Achievements |
デジタルペルソナとは、人間の趣味趣向や意思決定を通じて発現される身体運動や発話の情報表現としてのコンピュータモデルである。ロボティクス・コンピュータビジョン・AIの最新技術を駆使して、コンピュータが人間の行動を観察するだけで、その傾向や特性といった個性の抽出と類別化、人間の行動を言語化・アーカイブおよび再生する技術が基盤となる。令和5年度は、以下の研究項目に取り組み、人間の行動観察からそれを理解するAI実現を目指して以下の開発を実施した。 (B)行動データと言語データの統合数理モデルの開発 膨大に人間の身体運動のデータとそれに付与された説明文の運動・言語コーパスを整備した。このコーパスを学習データとして運動を言語へ翻訳するモデルと構築した。モデルは大規模自然言語モデルとして注目されているTransformerを採用した。運動データから生成される文章の文法および意味として正確性を複数の評価者によって点数付け実験を行い、文法としての適切さは約90%、動きを正確に表現する精度としては約60%のレベルに達成した。さらに身体周辺の物体を認識する深層学習モデルも構築した。物体情報を身体運動に組わせることによって、言語化を精度がさらに向上することが期待できる。 (D)行動解析の課題解決・サービス提供への応用 スマートフォンにて撮影した画像中から、人間の身体運動を表現するに重要な身体部位(キーポイント:鼻、目、耳、首、肩、肘、手先、腰、膝、足先)をリアルタイムで検出し、それらキーポイント位置座標から行動を理解する理解する深層学習モデルを構築した。そのモデルをスマートフォンに実装し、転倒検知・ダンス自動採点・ヨガのポーズ推定・認識アプリケーションを開発した。だれもが利用できる身体運動の計測と認識のAI基盤となる。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
人間の身体運動や発話といった行動の情報表現であるデジタルペルソナを構築するために、令和5年度では、運動認識モデルの改良および簡易なデバイスで利用できるようにするための技術開発を実施した。 (B)行動データと言語データの統合数理モデルの開発 前年までは身体運動から言語へ翻訳する人工知能モデルは従来の確率統計的手法を採用していた。運動や言語データの大規模化や翻訳の学習・生成計算の高速化が新たな課題として顕在化していた。本年度は、大規模自然言語処理で注目を集めているtransformerという深層学習モデルを採用して、運動から言語への翻訳の可能性を追求した。GPUなどの計算リソースを有効に利用することによって、運動から言語へ生成する速度を劇的に向上することに成功した。さらに、生成される言語の精度も予想通りのレベルに達し、さらに精度を向上させるために物体認識などを組み合わせる方法論へ順調に研究は進んでいる。
(D)行動解析の課題解決・サービス提供への応用 身体運動を計測・認識するAIを社会実装するためには、研究室で利用しているGPU搭載のハイパフォーマンス計算機ではなく、だれもの持っているスマートフォンのカメラと計算リソースで動くAIを開発する必要ある。Iphoneのカメラで撮影しながら、約25fpsの速度にて画像中からキーポイントを検出する技術の確立、およびキーポイント位置データから簡易の深層学習モデルにてほぼ実時間で動きを認識する計算モジュールを開発した。その応用としてダンスやヨガの採点アプリを構築し、展示会場にて一般のユーザーに体験してもらうことも行った。当初の研究計画どおりに、運動認識AIを社会実装する第一歩を踏み出すことに至っている。
|
Strategy for Future Research Activity |
人間の趣味趣向や意思決定を通じて発せられる身体運動や発話の情報表現であるデジタルペルソナを構築するために、令和6年度では、運動から言語を生成するAIの高精度化を目指して、身体運動と周辺環境情報を統合したマルチモーダル情報を活用した計算理論と技術を確立する。 (B)行動データと言語データの統合数理モデルの開発 身体運動から言語を生成する翻訳モデルに近年注目を集めている深層学習モデルTransformerを採用することによって学習および言語生成の計算速度が劇的に向上することを確認した。しかし、身体運動から生成される文章には、動き自体を適切に表現したものでない場合、身体運動が働き掛けているモノなどの環境を誤って表現する場合など身体運動データのみではその行動を言語化することが難しい例が散見された。身体運動データでは情報量的に限界があるという判断から、動きを行っている場所や操作しているモノなどの環境情報を組み入れることを行う。具体的には、物体認識で利用されている深層学習とこれまで開発してきた運動認識の深層学習モデルを並列計算し、言語化する計算でこれら計算結果を統合する。環境中の物体を認識することによって、身体が働き掛ける物体情報も取り込んで行動を理解するAIに繋がる。 (D)行動解析の課題解決・サービス提供への応用 身体運動を計測・認識するAIをスマートフォンに実装すること、およびそれを基盤として転倒検知、ダンスやヨガの自動採点などのアプリケーションを開発した。アプリケーションの適用領域をリハビリ介護やモノづくり産業現場へ拡張する。リハビリでは歩行を数値化してAIで認識することによって心身虚弱(フレイルティ)の診断を行う。製造現場への応用として組立作業が正しい工程で行われているかどうかの見守るAIを想定している。
|