研究課題/領域番号 |
17K20000
|
研究機関 | 大阪大学 |
研究代表者 |
高野 渉 大阪大学, 数理・データ科学教育研究センター, 特任教授(常勤) (30512090)
|
研究期間 (年度) |
2017-06-30 – 2020-03-31
|
キーワード | 自然言語 / 機械学習 / ロボット |
研究実績の概要 |
実世界は多種多様な連続情報で満たされている.人間は言語を基盤とした分節・記号化処理を通じて実世界を認識・理解する高度な知能を築き上げてきた.記号化・言語を背景として高度に体系化された人間社会にロボットが浸透するためには,実世界の言語化能力をロボットに実装することが必要不可欠となる.本研究課題では,人間の全身運動を分節・記号・言語化するロボットの人工知能の基盤として,運動データと自然言語を結びつける統計数理の枠組みを構築する.動きと言語を結びつける統計数理モデルの変数が作り上げる多様体を抽出することによって,動きから言語,および言語から運動の双方向変換を実現する. これは,日常生活で人間の行動を言語として理解するロボット,言語指令に応じて人間らしい行動を実行するロボットの基盤技術となる.当該年度では,以下の研究開発を行った.(1)運動データとその行動を表現する文章の学習データセットを継続して収集・蓄積した.運動はビデオカメラによる画像データとIMUセンサを利用した3次元運動データである.これら運動データに,インターネットユーザーおよび大学生が英語文章を付与する.(2)運動と言語表現を結びつける統計数理モデルを開発した.運動を入力層,文章中の単語を出力層,それらを結びつける複数の中間層からなる統計モデルであり,各層の連想関係を表す統計パラメータは,学習データセット中の運動から単語が生成される確率が最大となるように最適化される.1層のみの中間層を有するこれまでのモデルから,中間層を複数に拡張することによって運動と言語の結びつきを詳細に表現する方法を切り開いた.(3)カメラの2次元画像中での身体部位の位置情報から全身の特徴ベクトルを設計し,その特徴量と言語を結びつける数理モデルを開発した.被験者を撮影する1台のカメラ画像のみから,その行動を言語として理解する知能計算を開発した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究課題では,以下のとおり各研究開発進めている.(1)日常生活の行動や言語表現は多様であり,その多様性を克服するためには膨大な運動および言語の学習データセットが不可欠である.昨年度から継続して,日常生活の行動および言語データの計測・収集を行っている.クラウドソーシングの利用や状況に応じた計測デバイス(IMU,ビデオカメラ,光学式モーションキャプチャ)を活用することによって,効率的にデータ収集を進めている.(2)昨今の深層学習からヒントを得て,運動,単語および複数の中間層を統計的に接続する数理モデルを提案した.中間層の数が増えると,統計数理モデルのパラメータ数が増加し,その最適化の計算コストが膨れ上がる問題がある.中間層の深部へ計算を進める手順において,前の中間層までの計算結果を利用する再帰計算アルゴリズムを考案し,最適化計算の高速化を実現した.運動と言語の関係を中間層の状態として詳細に記述することが可能になった.ただし,局所最適解へ収束する問題が明らかになった.(3)これまでは,3次元空間中における全身部位の位置情報として人間の行動を表現していた.日常生活では,3次元データを取得するためのIMUセンサーや光学式モーションキャプチャを利用することはできない.ロボットに搭載されたカメラ映像から人間の行動を言語化する技術が必要である.カメラ画像中において各身体部位を検出し,両腰の中間を原点とした2次元座標系における各部位の位置からなるベクトルを全身運動の特徴量として考案した.この特徴量と言語表現を統計数モデルによって繋げることによって,1台のカメラから撮影された画像データから人間の行動を言語化する技術を開発した.
|
今後の研究の推進方策 |
(1)運動と言語表現の結びつきを詳細かつ正確に記述する数理モデルの開発と(2)カメラ映像から行動を言語化する技術の向上を進めていく.特に,本年度の研究開発を進めていくことで,以下の問題点が明らかになったので,その問題解決に注力して研究を進めていく.
(1)運動データを入力層,言語表現を出力層,それらを結びつける複数の中間層からなる統計数理モデルを考案した.中間層が増えるにつれて,最適化する確率パラメータ数や計算複雑度の増加によって,局所最適解に収束してしまい,学習が留まってしまう問題が明らかになった.中間層の数を段階的に増やしながら学習を進めることによって局所解に補足される傾向を低減する方法,アニーリング処理に基づいた確率パラメータに乱数を加えることによって局所解から抜け出す方法,最適解に到達するする確率パラメータの初期値を探索するアルゴリズムの開発を行う.
(2)カメラ画像中のおける両腰の中間を原点,原点と頭部を結ぶ軸をX軸,原点と右腰を結ぶ軸をY軸とした2次元座標系を定義する.この座標系における各身体部位の位置を要素としたベクトルを全身運動の特徴量とした.カメラ画像中における被験者の位置やカメラ姿勢に対して不変な特徴量である.しかし,被験者を撮影するカメラの方向に対して特徴量が変化することや,X軸・Y軸が消失してしまう特異点付近での特徴量の不安定性が明らかになった.カメラ画像から3次元空間における全身運動を復元する技術を開発することによって,撮影するカメラの位置・向きや特異点の問題は解消される.また,これまで開発してきた3次元全身運動と言語を結びつける数理モデルの技術と簡易に接続することが可能となる.
|
次年度使用額が生じた理由 |
・昨年5月に雑誌論文に投稿している論文の査読結果がまだ判明していない.平成30年度の予算にてオープンアクセスでの雑誌論文掲載費を支出する計画であったため次年度使用額が発生した.論文が採択され次第,繰越金から論文掲載費を支出する.
・高解像カメラおよびリアルタイム画像記録器を購入予定としていたが,カメラの在庫がなく,今年度中に納入することが不可能となった.次年度に購入してカメラ画像からの行動データの収集および言語技術の開発を進める.
|