研究課題/領域番号 |
21H03520
|
配分区分 | 補助金 |
研究機関 | 大阪大学 |
研究代表者 |
高野 渉 大阪大学, 数理・データ科学教育研究センター, 特任教授(常勤) (30512090)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
キーワード | 人工知能 / ロボティクス / 運動 / 機械学習 |
研究実績の概要 |
デジタルペルソナとは、人間の趣味趣向や意思決定を通じて発現される身体運動や発話の情報表現としてのコンピュータモデルである。ロボティクス・コンピュータビジョン・AIの最新技術を駆使して、コンピュータが人間の行動を観察するだけで、その傾向や特性といった個性の抽出と類別化、人間の行動を言語化・アーカイブおよび再生する技術が基盤となる。令和3年度は、以下の研究項目に取り組み、人間の行動観察からそれを言語として表現するため環境を整備した。 (A)ビデオモーションキャプチャ技術の開発 汎用カメラもしくはスマートフォンなどの簡易なデバイスから撮影した人間の行動から各身体部位(キーポイント)の2次元座標値を数値データとして記録する環境を整備した。2次元の運動データと並行して慣性センサーにて記録した3次元運動データを収集することによって、2次元映像と3次元運動のデータセットを構築した。このデータセットを活用して2次元映像から3次元の身体運動を推定する計算方法を開発した。 (B)行動データと言語データの統合数理モデルの開発 文章中における単語の意味はその周辺の単語によって規定されるとする仮説がある。この仮説に従って、ある目的単語からその前後にある単語を予測するニューラルネットワークを構築することによって、目的単語はニューラルネットワークの中間層の数値ベクトルとして表現されることになる。これが単語の分散表現に相当し、単語を情報圧縮した表現形と見ることができる。目的単語から分散表現までのニューラルネットワークの構造を残し、出力層を運動に置き換えて中間層から出力層までのモデルパラメータを新たに更新する転移学習の枠組みを構築した。こ枠組みによって、単語から運動を出力することが可能になる。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
人間の趣味趣向や意思決定を通じて発せられる身体運動や発話の情報表現であるデジタルペルソナを構築するために、令和3年度では、運動計測技術および運動の言語化技術を中心に研究開発を進めた。 (A)ビデオモーションキャプチャ技術の開発 人間の行動を1台もしくは複数台のカメラにて撮影した映像から人間の3次元全身運動を復元する技術を開発する計画であった。1台の簡易なカメラの映像から深層学習を活用することによって、2次元映像から3次元運動を復元する技術の開発から着手した。1関節当たり4cm程度の誤差にて動きを計測する技術が完成し、日常生活の運動を計測する方法として十分な精度を達成した。この開発の進展に伴い、複数台カメラによる運動計測方法の開発を一時中止した。より計測精度が必要な場面に遭遇した時に、複数台カメラによる運動計測の開発の再開を再度検討する。 (B)行動データと言語データの統合数理モデルの開発 自然言語処理の研究分野にてニューラルネットワークを用いた単語の分散表現法が開発されてきている。単語をベクトルとして数値化することによって、単語の足し算や引き算などの計算ができるということで言語処理に大きな進展をもたらした。そこには、文章中の目的単語からその周辺の単語を予測するニューラルネットワークが活用されている。膨大な言語データセットを学習したニューラルネットワークには言語知識が埋め込まれていることが期待される。そこで、出力層を単語から運動に置き換え、出力層に関連するモデルパラメータのみを更新する転移学習を開発した。言語知識を再利用しながら単語から運動を生成することで、当初の目論見通り運動と言語を繋げるモデルを構築することができている。一方、動きの周辺になる物体情報を取り込むことには至っていない点は、次年度早急に着手する。
|
今後の研究の推進方策 |
人間の趣味趣向や意思決定を通じて発せられる身体運動や発話の情報表現であるデジタルペルソナを構築するために、令和4年度では、身体運動、その周囲状況からなる行動データを言語化する技術、および行動の言語化を活用したサービスを開発する。 (B)行動データと言語データの統合数理モデルの開発 身体運動は、1台の汎用カメラもしくはスマートフォンなどの簡易デバイスにて撮影し、検出されるキーポイントの2次元位置から3次元運動データへ復元する。身体部位の周辺に散在する環境中の物体を検出し、それを識別・分類した結果と運動データを連結したベクトルを設計することによって、人間の行動を数値データ化する。その行動データに付与された文章データと照らし合わせながら、行動データから文章を作文する計算方法を開発する。行動データから文章を出力する数理モデルに、機械翻訳モデルで成果を挙げている深層学習モデルの構造を活用するすることを検討している。原言語を目的言語へ変換する情報処理を行動から文章へ変換する手続きへ再利用することによって、高い精度と短期間の開発が実現されることが期待できる。 (D)行動解析の課題解決・サービス提供への応用 1台の簡易なカメラシステムにて身体運動を計測することができるようになりつつある。その技術を公開することによって、多くの人が運動を計測してそのデータを活用できるようにする。例えば、あるスポーツ競技のエキスパートの動きを自分の動きを数値データとして比較して、その違いを定量的に可視化するアプリケーションなどが考えれらる。さらに、言語と運動データを紐づけたデータベースを構築することによって、言語によるキーワードから必要な過去の運動データを検索して、再利用することも可能となる。
|