2012 Fiscal Year Research-status Report
調理をしながら調理法を説明した音声からのレシピテキストの自動生成
Project/Area Number |
23700144
|
Research Institution | Kyoto University |
Principal Investigator |
山肩 洋子 京都大学, 情報学研究科, 准教授 (60423018)
|
Keywords | メディア情報処理 / ヒューマンインターフェイス / 音声対話システム / 映像認識 / 自然言語処理 |
Research Abstract |
本研究では、調理者が調理をしながらその調理法を説明した音声から、レシピテキストを自動生成する手法の研究を行う。レシピテキストにおいては、手順番号①の手順で生じた中間食材を、「①に②を混ぜます」というように手順番号で照応するのが一般的である。しかし音声でそのような中間食材を表現するときは、『さっき切った野菜』というように、適当な呼称を用いることが多い。そこで、調理観測映像から得た情報と調理者との対話から得た情報により、食材の調理状況を認識することで、調理者が食材を音声で表現した際に用いた呼称を照応表現に自動変換することが本研究のポイントである。 今年度は、昨年度構築した言語モデルにより、調理者が行っているレシピの手順を自動的に構造化すると同時に、調理者の発話から調理進行のどの部分かを推定する機構を構築した。具体的には、まず昨年度構築した言語モデルを用いて、レシピの各手順説明文を係り受け解析し、各手順間を連結することにより、材料が葉ノード、各加工が中間ノード、料理の完成品が根ノードとなるようなフローグラフに変換した。次に、レシピテキストの解析結果と実際との動作の齟齬を解消する仕組みを導入した。たとえば、レシピに「○○を炒めます。さらに△△を混ぜ合わせます。」と書かれている場合、「混ぜ合わせる」作業を行っているときは、その前の「炒める」作業が継続している。また、下ごしらえにおいては省略が頻発する。たとえば「じゃが芋の皮を剥く」のは当たり前であり、よってこのような説明は省かれる場合が多いが、実際には存在する。そこで、レシピから生成したルールを用いることで、これらの齟齬を可能な限り解消した。 最後に、調理中に発話された説明発話に対して、前述の言語モデルにより解析し、該当する動作をフローグラフ上で探索することで、現在行っている手順を特定するアルゴリズムを構築した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
今年度予定していた、ドメイン適応による音声認識率の向上は今年度は行わなかった。これは、音声認識率が、本研究で扱おうとしている言語モデルだけでなく、収録デバイスや圧縮アルゴリズムなどにより生じる音響的なひずみにも依存するが、本システムの開発プラットフォームであるIwaCamにおいて、これらの品質が不十分であると判断したためである。これらの品質は、平成25年度中には改善することが予定されていることから、音声認識率の向上は平成25年度に持越しし、今年度は音声を手動で書き起こしたデータを使って実験を行った。 一方、来年度予定していた、レシピテキストと実際の作業との齟齬の解消(一連の加工動作の統合や、下ごしらえの加工の統合など)は今年度に前倒しし研究を行った。 以上のことから、総じて概ね順調に達成している。
|
Strategy for Future Research Activity |
今年度得た研究成果のうち、レシピテキストから自動的に作業フローグラフに変換する仕組みにおいて、学習データの生成方法やデータフォーマットなどについて発表を行う。また、レシピテキストと実際の動作の齟齬の解消に関する研究について論文投稿を行う。この研究は、複数の類似したレシピ集合において、それぞれのレシピがほかのレシピとどこが違うかといった特徴を抽出するシステムへと応用が可能である。よって、情報検索における特徴抽出手法の提案としての発表を予定している。 今年度の研究課題としては、レシピに適応した言語モデルを使い、さらに調理者が現在行っている調理がレシピのどの場面かを推定して語彙を絞り込むことで、調理中の調理者の発話の音声認識率を向上させる仕組みを導入する。また、音声認識のスコアが不十分であった場合には、聞き直す対話機能を組み込むが、ここで単に「もう一度言ってください」と聞くのではなく、システムが調理進行をある程度把握している場合には、「先ほど混ぜ合わせた調味料をさっき切った野菜に混ぜたんですか?」といった発話文を生成する仕組みを研究する。 また、レシピの各説明文を統合して生成したフローデータを解析することにより、その途中に現れるすべての中間生成物について、呼ばれえる可能な照応表現を自動生成する仕組みを構築する。これは、研究代表者の過去の研究において、中間生成物の呼び方を調査し、ルール化した成果があることから、これを導入することで解決を図る。これにより、調理中の任意の時点で調理者が発した呼び名から、それが指し示す中間生成物を同定することが可能になる。さらに、呼ばれた中間生成物がレシピテキストのどの手順の結果生じたものかを特定することで、調理者の「混ぜ合わせた調味料をさっき切った野菜に混ぜます」といった発話から、「1を2に混ぜます」といった説明文を生成することが可能になる。
|
Expenditure Plans for the Next FY Research Funding |
まず、昨年度の研究成果を国内外の学会で発表および紙面発表するため、旅費および投稿料に研究費の一部を使用する。また、一昨年度構築した言語モデルと、今年度構築したレシピの構造化の精度をより向上させるため、学習データを増やすことに研究費の一部を使用する。また、一般家庭を実験フィールドとするための実験用ソフトウェアを開発するのに研究費の一部を使用する。このソフトウェアでは、調理映像認識機能を実現するための撮影および画像処理機能と、音声対話機能を実現するための音声認識および音声合成機能が実装できる必要がある。このため、料理映像コミュニケーション基盤ソフトウェアIwaCamを使って開発することを予定している。このソフトウェアの開発ライセンス購入と、サーバ保守費の支払いに研究費の一部を充てる。 今年度は被験者による一般家庭でのフィールドテストを行う予定であることから、実験セットを2セット増築する。これは、USBカメラ3台とBluetoothヘッドセット、実験データを移動するためのHDDなどを含む。さらに、実験の様子を記録するため、デジタルカメラを購入する。
|
Research Products
(9 results)