研究課題/領域番号 |
18K11425
|
研究機関 | 東京大学 |
研究代表者 |
山肩 洋子 東京大学, 大学院情報理工学系研究科, 准教授 (60423018)
|
研究分担者 |
山崎 俊彦 東京大学, 大学院情報理工学系研究科, 准教授 (70376599)
今堀 慎治 中央大学, 理工学部, 教授 (90396789)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | 人間行動認識 / マルチメディア情報処理 / 教示コンテンツ自動生成 / e-learning |
研究実績の概要 |
裁縫や小物作り,DIYなど,ハンドクラフトは「ものづくり」に対する人々の技術や教養,情熱を育てる下支えである.AIの技術により,専門知識を持たない人であっても「ものづくり」を学び,他者に教えることを可能とすることが本研究の目標である.通常,人の「知識」は,音声や文書,イラストなどの客観的表現を媒介して他者に伝えられる.しかし「技術」は身体的動きを伴った体験であり,見様見真似でその動きを模倣する中で,徐々にその感覚を主観として身につけ,会得するという伝達経路を取る.収録映像を見て模倣するだけでは,視聴者は制作者に追従するのみであったが,本研究では視聴者は制作者視点で,自分の身体的動きに同期した映像を視聴する.これにより,制作者に乗り移って制作を疑似体験することが可能となると期待される.このような仕組みを通じて,AIが媒介して「技術」を主観的に会得する機構を実現することが学術的な創造性である. 本課題では、ハンドクラフトの多種多様な分野を対象に,以下の3つの課題に取り組む. (1) 自然言語処理:これまで開発してきた調理レシピを調理手順フローに自動変換する技術を拡張することで、裁縫・DIY・リフォームなど様々な分野の『手順記述』を意味構造解析可能な汎用的な仕組みを実現する. (2) 映像処理:従来の定点カメラに加え、制作者視点の映像撮影手法およびその映像認識技術の開発を行う. (3) 視聴者同期型コンテンツ再生:(1)の手意味構造表現を介して映像中の制作者の動作と視聴者の現在の動作を対応づける.これにより,映像を視聴者の動作に同期して再生することで,視聴者が制作者のものづくりを主観的に見て疑似体験し,会得する機構の実現を目指す.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
申請者らはこれまで,固有表現認識や係り受け構造解析といった自然言語処理技術を応用し、レシピから抽出した調理手順文書から、食材を葉、調理加工を節、最終的に完成した料理を根とするツリー型のフローグラフ形式で、意味構造を抽出する技術を開発してきた。平成30年度の目標の一つは、この手法を料理以外の分野、特に裁縫に適応することであった。その主たる仕事はコーパスを作ることである。更に言うならばタグ付けルールを制定することであり、専門知識と時間を要する極めてコストの高い作業である。『画像中に移っている物体が何か』といった、一般常識でタグ付けできる類のタスクと違い、固有表現認識や係り受け解析で学習対象とするコーパスのタグ付けは、まずどのような種類のタグを使用するのか(レシピの場合は固有表現に『食材』『道具』『調理者の動作』など8種類、係り受け解析の依存関係ラベルに10種類を制定)、その判断基準は何かを決める必要があり、タグ付けを開始する前に熟考してガイドラインを用意するものの、タグ付けをする中で例外事例が頻発、たびたびガイドラインを改定し、時にはタグの種類自体も増やす必要がある。これは、かつて和文料理レシピ用に策定したガイドラインを英文料理レシピに適応する際に生じた問題でもあることから、今年度は裁縫レシピのタグ付けガイドラインを設計するのと並行して、和文料理レシピのガイドラインを英文料理レシピに適応した際に生じた種々の問題を整理するとともに、最初のガイドライン(和文料理レシピ用のガイドラインを英文に翻訳したもの)に従ってタグ付けしたコーパスと、100レシピをタグ付けした後でガイドラインを英文用にアップデートしたレシピに従ってタグ付けしたコーパスとで、最終的な固有表現認識精度にどのような影響があるかを調査した。この成果は、IEEE HMData2018で発表を行った。
|
今後の研究の推進方策 |
平成30年度は映像に対する解析も一つの課題であった。これは料理レシピにおいても未解決であり、またWebでは調理映像が容易に収集可能なことから、調理映像と料理レシピとのアラインメントを行う手法を構築した。この成果は第11回データ工学と情報マネジメントに関するフォーラムで発表を行った。平成31年度は画像検索技術を導入することでこの手法を発展させる。現在、映像認識では深層学習による手法がよく用いられるが、これが高い精度で動作するには、大量の学習データが不可欠である。調理映像は、シーンごとにレシピと対応付けられたデータがほぼ皆無であり、食材や道具、調理行動など認識対象の多様性を考えれば、人手でタグ付けすることで学習データを作ることも現実的ではない。そこで、調理の説明画像を用いて調理映像のアラインメントを行うことを考える。具体的には、クックパッドや楽天レシピのようなWebレシピでは、調理手順の説明文に対して、それを説明するような画像が付与されている場合が多いことから、その説明文と画像の組み合わせを大量に収集し、画像認識モデルを学習することで、調理映像とレシピ文書とのアラインメントを試みる。 平成31年度は、最終的なアウトプットである教示コンテンツデザインも一つの課題である。まずはシステム評価のため、映像とレシピ文書との対応付けは手動で行い、モックアップのコンテンツを生成する。これに対し、一般的なレシピコンテンツである、文書とその説明画像の組み合わせのシーケンスとの比較実験を行う。また、システムを継続して利用する中で,制作者は生成された教示コンテンツを見て,「単に作業する」のではなく,「作業を教える」ことを意識するよう変化することが期待される.その変化を分析することにより,制作者から見た,よりよい教示コンテンツのあり方を解明し,作業手順教示のためのコンテンツデザインを確立する.
|
次年度使用額が生じた理由 |
一人称視点による調理や裁縫などの創作活動の映像や手順文書について、謝金により収録を予定していたが、国内外の学会で研究発表した際、現在の映像処理のState of artsは深層学習であり、これを導入するためには自前で収録した少数の映像データではなく、Webで収集可能な映像に対してタグを付与したほうが効率的であり、拡張性も高いとのご意見をいただいた。本研究が導入を検討している手法は深層学習に限らないが、論文化やトップカンファレンスに投稿するためには、深層学習による手法との比較が不可欠である。本課題において、より適切な映像データの収録・収集法をより深く検討するため、研究費の一部を繰り越した。
|