研究課題/領域番号 |
26280039
|
研究機関 | 京都大学 |
研究代表者 |
山肩 洋子 京都大学, 情報学研究科, 特定准教授 (60423018)
|
研究分担者 |
今堀 慎治 名古屋大学, 工学研究科, 准教授 (90396789)
森 信介 京都大学, 学術情報メディアセンター, 准教授 (90456773)
|
研究期間 (年度) |
2014-04-01 – 2018-03-31
|
キーワード | 情報検索 / メディア情報処理 / 自然言語処理 / グラフ理論 |
研究実績の概要 |
本研究の目的は,Webにある膨大な数のレシピの集合が本質的にどの程度の多様性を持っているのか,足りないのか十分なのか,何が足りないのかを明らかにすることである.そのためには,似た二つのレシピに注目したとき,手順(作り方)は同じだが記述が異なるのか,それとも手順自体が異なるのかを分離して扱う必要がある.そこで本研究では,(i)自然言語処理技術によりレシピ記述から手順構造を抽出し,(ii)手順と記述の観点からレシピ間の関係を解析するとともに,(iii)全体の知識を使って補完可能な欠損を補完することで,レシピ集合が持つ本質的な多様性を解析する機構を構築する. 今年度は以下の3点を行った. (1)レシピテキストをレシピフローに変換する解析精度の向上を図った.我々が提案した手法は,手作業で作成したレシピフローコーパスから,固有表現認識器と係り受け解析器および述語項構造解析器を学習し,入力となるレシピテキストに適用するものである.これらの言語処理の精度向上には,質の高いレシピフローコーパスが必要であるため,2名のアノテータを雇用し,320レシピのレシピコーパスを構築した. (2)類似したレシピ間で典型的・特徴的な作り方を発見する手法を提案した.与えられたレシピ集合をツリーに変換し,それらのレシピツリーに対して編集距離に基づくノード間マッピングを行うことで,対応する手順を発見した.この成果は学会口頭発表を行い,現在論文を執筆中である. (3)互いに調理手順が似たレシピ同士を,その調理の流れに注目して対応付けることにより,コンテキストによって意味が変化する動作用語のオントロジー辞書を動的に構築する手法を提案した.この成果は電子情報通信学会ヒューマンコミュニケーショングループ2014シンポジウムにおいて口頭発表を行い,招待論文に指定され,現在論文投稿中である.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
(1)レシピテキストをレシピフローに変換する解析精度の向上という課題に対して,今年度の目標としていたレシピコーパス数300を達成したのに加え,本研究グループ以外の類似研究への貢献として,Web上においてモデルやサンプルプログラムを含むレシピ言語処理マニュアル(http://plata.ar.media.kyoto-u.ac.jp/kadowaki/index.html)の公開を行った.また,レシピのテキストを介さず,調理動作を認識して直接レシピフローを生成できないかを検討するため,調理映像とレシピフローとの対訳コーパスを構築し,一部の調理行動については認識可能であることを示した.この成果は食にまつわる情報処理の国際ワークショップCEA2014において発表を行った. (2)類似したレシピ間で典型的・特徴的な作り方を発見するという課題については,論文発行にはいたらかなったものの,投稿できる状態にあり,アルゴリズムの実装と評価もすでに終わっている.また,レシピ検索におけるニーズを調査するため,ブログの中でレシピを紹介するブログ型レシピの分析を行った.この成果は国際ワークショップCEA2014において発表を行った. (3)同じ手順を表現するレシピテキスト間の関係を解明するという課題については,広島市立大学 難波英嗣准教授らが作成している「料理オントロジー」と連携した.難波らの「料理オントロジー」が,料理の文脈によらない静的なオントロジー表現であるのに対し,我々が提案するのは,用語のあらわす意味が「今何を作っているか」といった文脈に依存する動的オントロジーであると位置づけている.
|
今後の研究の推進方策 |
平成27年度は次のような方針で研究を推進する. (1)料理手順の構造化:,コーパスに加えるレシピをこれまで無作為にレシピを選んでいたが,今後は特定の料理名でレシピポータルサイトを検索したとき,ランキング上位にあらわれるものを中心にコーパスを作成する.ランキング上位のレシピ同志は,その調理手順がおおむね似通っていることから,文脈が似ている調理手順間においてその各部分の関係や相違を明確に定義でき,説明粒度の書き換えや手順特徴の抽出アルゴリズムへの利用が容易となる. (2)レシピフロー間の関係の解明:初年度は互いに類似したレシピの集合に制限して研究を行うが,次年度以降はこの制限を解除し,レシピ空間全体における個々のレシピの特徴を探索する. (3)レシピテキストの記述粒度の自動変換:レシピフローデータについて,(2)と同様,初めは手動で生成した正確なレシピフローから研究を開始し,徐々に自動生成したレシピへと移行する. (4)手順の手抜き度の自動変換:たとえば「じゃが芋を洗う」は当たり前すぎて記述が省略されがちであるが,「じゃが芋を水にさらす」は手順自体が省略されることが多い.このように,当たり前なために記述が省略されたのか,それともその手順自体が省略可能なのかを判別することは難しい.そこで,(2)の成果により省略可能な手順を発見し,(3)の成果である記述粒度の自動変換手法により,手順に依存する部分を切り出す形で判別を試みる.具体的には,(i)記述粒度はレシピごとに概ね統一されていること,(ii)記述の省略は料理の種類に非依存に発生するが,手順の省略は料理の種類に依存することの2つの仮説を用いて,記述か手順かを判別する.
|
次年度使用額が生じた理由 |
レシピコーパスを作成するにあたり,アノテータを2名雇用する予定で予算を組んでいたが,学内の研究助成金を獲得できたことにより,うち1名を雇用することができた.これにより,来年度は従来の計画よりもコーパスの収集範囲を拡大することを予定しており,平成26年度はその素となるデータの収集を行ったが,アノテーションは平成27年度に行うことから,それにかかる予算を繰り越した. また,研究分担者間で情報交換と議論を行うため,旅費を計上していたが,今年度は初年度のため,実践を通じて方針を決定するため,短時間の会議を頻繁に行うこととし,Skypeを使った遠隔会議に置き換えた.来年度以降は研究成果を踏まえた深い議論を行うため,旅費を繰り越した.
|
次年度使用額の使用計画 |
当初計画よりもコーパスの収集範囲を拡張する.また,研究分担者が直接会って議論する機会を頻繁に設ける.
|