研究課題/領域番号 |
26280039
|
研究機関 | 東京大学 |
研究代表者 |
山肩 洋子 東京大学, 情報理工学(系)研究科, 研究員 (60423018)
|
研究分担者 |
今堀 慎治 中央大学, 理工学部, 教授 (90396789)
森 信介 京都大学, 学術情報メディアセンター, 教授 (90456773)
|
研究期間 (年度) |
2014-04-01 – 2018-03-31
|
キーワード | 情報検索 / メディア情報処理 / 自然言語処理 / グラフ理論 |
研究実績の概要 |
本研究の目的は,Webにある膨大な数のレシピの集合が本質的にどの程度の多様性を持っているのか,足りないのか十分なのか,何が足りないのかを明らかにすることである.そこで本研究では,(i)自然言語処理技術によりレシピ記述から手順構造を抽出し,(ii)手順と記述の観点からレシピ間の関係を解析するとともに,(iii)全体の知識を使って補完可能な欠損を補完することで,レシピ集合が持つ本質的な多様性を解析する機構を構築する.今年度は以下の2点を行った. (1) 国際化に向けた英語対応:Webレシピの急増は日本だけでなく世界で起こっている現象である.米国最大手のAllrecipesの月間ページビューは推定2,000万件で,クックパッドの実に3倍以上である.Allrecipesのレシピは研究利用に限定して部分的に提供されはじめており,料理レシピが世界の情報処理の研究対象として国際的に認知されつつある.そこで、英文係り受け解析器RASPの開発で著名なJohn Carroll氏の協力を得て、英文レシピのフローグラフコーパスを開発した。これにより、日英両言語による料理レシピのフローグラフコーパスが利用可能な状態となった。 (2) 全体の知識を効率的に集約するためには、データの次元圧縮が重要となる。広島市立大の難波教授らは、大量のレシピを係り受け解析して用語間の依存関係を抽出し、その分布が類似する用語間を同義語と判定することで、『料理オントロジー辞書』を開発している。この手法では同文内における係り受け関係のみを対象とするが、「ソース」や「生地」のような中間生成物名は構成要素が多様であるが故に、同文内の用語関係だけでは正しく同義語を導出できないことが多かった。そこでフローグラフを用いることで、料理が完成するまでの工程をすべて考慮することにより、より詳細な同義語関係を導出する手法を提案した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
(1) これまで和文のみを対象としてきた提案手法を英語レシピに拡張することを目的として、H28.8~H29.3の期間、英国サセックス大学に滞在し、レシピ固有表現(r-NE)とレシピフローグラフのタグ付けコーパスを構築した。まず、現地のレシピサイトAllrecipes.co.ukより収集したレシピに対し、現地の研究協力者(博士課程1年生のイギリス人学生)とともに、和文レシピ用に開発したタグ付けガイドラインに沿って英文レシピをタグ付けした。その中で、日本語にはない表現や、和文用のガイドラインでは解決できない問題を抽出し、Prof. Carrollと議論しながら、英文レシピにも適合するようガイドラインを更新した。さらに、日英料理レシピ間で生じている様々な相違について、同氏と協議しながら統計的な解析を行った。 (2) 英文料理レシピからフローグラフに変換したデータの可視化および活用について、同大学のProf. Peter Chenの協力を得た。滞在中、週1回程度の定期的な打ち合わせを通じて、テキストでは省略された説明を、可視化技術を通じて復元する手法について議論した。 (3) これまで我々が開発してきたフローグラフは、レシピテキストから概ね情報の欠損なく変換されたものであったが、レシピを比較・集約するためには、フローの主幹を見つけ出すことが重要である。そこで、フローグラフを取り出す前の完全グラフの状態から、食材・道具・動作のみからなる主幹フローを抽出する手法を提案し、国際ワークショップで発表した。調理では複数の食材が次々と混ぜ合わさり一つの料理になることが多く、途中で枝分かれしたり、複数の料理ができることも稀であるため、この主幹フローは木構造になることが多く、一般的な有向グラフに比べて検索等における扱いが容易であるという利点がある。
|
今後の研究の推進方策 |
平成29年度は最終年度であることを踏まえ、全体の総括を行うのと同時に、次のような方針で研究を推進する. (1) 米国の主要なレシピポータルサイトAllrecipes.comとFood.comよりそれぞれ約50万件、イギリスのAllrecipes.co.ukより約3.6万件の英文レシピに対し、申請者らが構築したシステムによりフローグラフ化して、英文・和文レシピの相違について統計的な分析を行うのと同時に、提案手法を英文レシピに適用すべく改良した上で英文レシピを対象とした評価を行う。 (2) これまでの研究成果をアプリケーションの形で実現し、被験者実験によりその有効性を評価する。具体的には、材料・手順・記述のそれぞれの視点においてレシピをランキングするレシピ検索システムを構築する。平成28年度までに提案した手法は対象とするレシピの数に計算コストが強く依存することから、まずは料理名で絞り込んだレシピ集合を対象とする。同時に、より多く、多様なレシピを対象とすることができるよう、検索アルゴリズムの高速化を行う。 (3) 和文レシピを対象として、レシピテキストの記述粒度や、手順の手抜き度を自動変換する手法を実装し、学術的な評価を行う。また、アプリケーション化して被験者実験を行う。 (4) これまで得た様々な成果をまとめ、論文誌あるいは国際学会等に投稿し発表する。また、提案手法の研究期間後の発展に向けて、共同研究者や研究協力者と議論する。
|
次年度使用額が生じた理由 |
料理レシピの言語処理研究が国際学会等において急速に増加したことを受けて、昨年度は提案手法を和文レシピから英文レシピへと拡張するための基盤作りへ研究方針をシフトした。これは、和文・英文両言語を対象として提案手法を評価することで、言語によらない本質的な評価を行うということだけでなく、本課題の成果が国際的に認められるためにも極めて重要であると判断した。そこで、二名の研究分担者と協議し、研究分担者の研究内容については、平成28年度はそれまでの成果をより深め、また英文レシピへと拡張する準備をする事に注力することとし、平成29年度は英文レシピに提案手法を適用して、得られた成果を国際的に発表することにした。そのため、平成28年度予算を今年度に繰り越した。
|
次年度使用額の使用計画 |
平成28年度に構築した英文レシピコーパスを新たに加え、和文レシピと英文レシピの相違分析と、英文レシピを対象とした提案手法の評価等の研究を国際学会・国際誌等で発表するために使用する。
|