研究課題/領域番号 |
26280039
|
研究機関 | 東京大学 |
研究代表者 |
山肩 洋子 東京大学, 情報理工学(系)研究科, 研究員 (60423018)
|
研究分担者 |
今堀 慎治 中央大学, 理工学部, 教授 (90396789)
森 信介 京都大学, 学術情報メディアセンター, 准教授 (90456773)
|
研究期間 (年度) |
2014-04-01 – 2018-03-31
|
キーワード | 情報検索 / メディア情報より / 自然言語処理 / グラフ理論 |
研究実績の概要 |
本研究の目的は,Webにある膨大な数のレシピの集合が本質的にどの程度の多様性を持っているのか,足りないのか十分なのか,何が足りないのかを明らかにすることである.そのためには,似た二つのレシピに注目したとき,手順(作り方)は同じだが記述が異なるのか,それとも手順自体が異なるのかを分離して扱う必要がある.そこで本研究では,(i)自然言語処理技術によりレシピ記述から手順構造を抽出し,(ii)手順と記述の観点からレシピ間の関係を解析するとともに,(iii)全体の知識を使って補完可能な欠損を補完することで,レシピ集合が持つ本質的な多様性を解析する機構を構築する.今年度は以下の3点を行った. (1) レシピフローグラフコーパスのオーサリングツールの開発:昨年度の成果により、誤りは含むものの、レシピの手順文書からフローグラフを自動生成することが可能となった.そこで,これをグラフとして可視化し,そこで編集できるオーサリングツールを開発した. (2) フローグラフ化されたレシピを対象に、食材とそれに対する加工の組合せからレシピを検索可能な検索手法を提案した。また、その中で、自動的に変換した誤りを含むフローグラフの、手動で変換した正確なフローグラフに対する、本タスクにおける有効性を評価した。この成果は近日中に投稿を予定している. (3) 調理手順の中でも、食材・道具とそれに対する調理者の加工に注目した主要な流れを表すフローグラフを抽出する手法を提案した。この成果は食に関する情報処理研究の国際ワークショップであるCEA2016にて採択され,米国シアトルにて発表予定である.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
(1)国立情報学研究所を通じて研究目的で提供されているクックパッドレシピデータに含まれる172万件の全レシピに対し,我々が提案した手法を適用してフローグラフ化を完了した.これにより,これまでに我々が開発してきたレシピ検索やレシピ推薦などのアプリケーションを,実運用に近い環境で評価することが可能となった. (2)昨年度は,互いに類似したレシピの集合に制限してレシピ間の関係を解析していたが,今年度からはレシピ空間全体を対象とする手法の研究を行った.このような大規模なレシピ空間では,手順説明文書をフローグラフに変換しただけでは,グラフが複雑過ぎて比較するのが困難であることから,調理の主たる流れを抽出するすることで,フローグラフの要約を測る手法を提案した. (3)(1)で構築した172万件のフローグラフレシピを対象とし,手順によりレシピを検索する手法を開発した.既存のレシピ検索システムは,手順説明文書を検索対象とする際,全文書を単語分割してBoWとして扱うのが一般的である.しかしながらBoWでは食材と加工の関係は保存されない.たとえば生のトマトは苦手だが,加熱したトマトは好きだというユーザが,後者のレシピを検索する際,「トマト 炒める」といった検索クエリで検索しても,「炒める」対象が必ずしもトマトとは限らない.そこで,フローグラフ化したレシピから,食材に対する加工の流れを抽出した上で,与えられたクエリの手順を含むレシピを検索する手法を提案した.この手法は,手順説明の詳細さの違いにも頑健である.
|
今後の研究の推進方策 |
(1) 国際化に向けた英語対応:Webレシピの急増は日本だけでなく世界で起こっている現象である.米国最大手のAllrecipesの月間ページビューは推定2,000万件で,クックパッドの実に3倍以上である.Allrecipesのレシピは研究利用に限定して部分的に提供されはじめており,料理レシピが世界の情報処理の研究対象として国際的に認知されつつある.食は文化によって多様であるため,あらゆる国や地域において本課題であるレシピの検索は有用なはずである.提案手法を英語に適応させるなかで,言語に依存しない汎用的な枠組みを開発する. (2) レシピフロー間の関係の解明:今年度,編集距離によりレシピ間の相違を発見する手法に関する論文が採択されたが,これは計算コストが大きいことから,検索候補を10件程度に絞り込める場合は有効だが,レシピ空間全体を対象とすることができない.今年度,フローグラフの要約や高速な手順検索に関する成果を得たことから,平成28年度はレシピ空間すべてを対象としてレシピ間の関係を解明する手法を開発する. (3)レシピテキストの記述粒度の自動変換:(2)を行うことにより,手順のステップごとに簡略な説明文と詳細な説明文の組合せを導出する手法を提案する.これにより,「玉ねぎを切る」とある場合,『肉じゃが』を作る場合は「切る」は「くし切り」のことだが,『ハンバーグ』を作る場合は「微塵切り」のことであるといった意味レベルでの対応を得る. (4)手順の手抜き度の自動変換:「じゃが芋を洗う」は当たり前すぎて記述が省略されがちであるが,「じゃが芋を水にさらす」は手順自体が省略されることが多い.このような記述の省略と手順自体の省略を判別するため,(2)の成果により省略可能な手順を発見し,(3)の成果である記述粒度の自動変換手法により,手順に依存する部分を切り出す.
|
次年度使用額が生じた理由 |
レシピコーパスを作成するに当たり,アノテータ1名を雇用していたが,研究代表者が10月に異動したことにより,このアノテータの雇用の継続が困難になった.そこで,今年度は,コーパス作成をより容易にするため,自動変換したフローグラフをベースとして,それを編集するアプリケーションを開発する内容に置き換えた. また,研究分担者間で情報交換と議論を行うため,旅費を計上していたが,今年度は初年度のため,実践を通じて方針を決定するため,短時間の会議を頻繁に行うこととし,Skypeを使った遠隔会議に置き換えた.来年度以降は研究成果を踏まえた深い議論を行うため,旅費を繰り越した.
|
次年度使用額の使用計画 |
国際化に向けて,英国サセックス大学教授であるJohn Carroll氏の協力を得て,英文レシピのフローグラフコーパスの開発と,提案手法の英語適応を行う.また,同大学教授のPeter Cheng氏の協力のもと,フローグラフの可視化によるアプリケーションデザインを行う.
|