研究課題/領域番号 |
23700144
|
研究機関 | 京都大学 |
研究代表者 |
山肩 洋子 京都大学, 情報学研究科, 准教授 (60423018)
|
研究期間 (年度) |
2011-04-28 – 2015-03-31
|
キーワード | メディア情報処理 / ヒューマンインターフェイス / 音声対話システム / 映像認識 / 自然言語処理 |
研究概要 |
本研究では、調理者が調理をしながらその調理法を説明した音声から、レシピテキストを自動生成する手法の研究を行う。レシピテキストにおいては、手順番号(1)の手順で生じた中間食材を、「(1)に(2)を混ぜます」というように手順番号で照応するのが一般的である。しかし音声でそのような中間食材を表現するときは、『さっき切った野菜』というように、適当な呼称を用いることが多い。そこで、調理観測映像から得た情報と調理者との対話から得た情報により、食材の調理状況を認識することで、調理者が食材を音声で表現した際に用いた呼称を照応表現に自動変換することが本研究のポイントである。レシピテキストの自動生成には、テキストの構造を解析したり、高精度な自動音声認識を構築する必要があるため、レシピテキストに適応した辞書や言語モデルが有用である。そこで今年度は、レシピテキストから半自動により固有表現を抽出することにより、食材名や加工動作名などの固有表現辞書と言語モデルの構築を行った。具体的には、まずレシピテキスト中の各単語が、食材名や加工動作名など、どの種類の固有表現であるかを推定するため、Webより大量のレシピテキストを収集し、一部を手動でラベリングして京都テキスト解析ツールキット(KyTea)によりモデルを学習した。この結果,未知のレシピについても8割程度の精度で固有表現の種類を推定できることが分かった。次に、レシピテキストを構文解析して、加工を示す動作にかかる目的語や形容表現を特定した。これを同種の加工を示す動詞間でまとめることで、その種類の加工の説明文のテンプレートを導出した。この用語リストには加工の種類に応じた生起確率を付与しておくことで、調理者の発話認識における言語モデルとして利用できるだけでなく、音声対話による質問を生成するためのテンプレートとしても利用できる。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
4月末から8月末まで産休を取得したため、その間、研究活動が停止したが。しかしながら、年度はじめの時点で想定していたことと、自然言語処理部分について研究協力者である京都大学学術情報メディアセンター准教授 森信介先生ご自身の研究課題と重なる部分が多く、効率的な研究協力体制が作れたことから、結果、想定していた程度の進展が得られた。
|
今後の研究の推進方策 |
H23年度の成果であるレシピテキストに関する固有表現辞書の公開、およびレシピに適用した言語モデルの構築とテンプレートに関する研究についての学術発表を行う。今年度の研究課題としては,対話による調理進行の把握とドメイン適応による音声認識率の向上を行う.具体的には,まず,調理者の発話認識において、調理ドメインに適応した言語モデルを使用し、さらに加工の種類が特定できた場合はその加工の種類に適応した言語モデルを用いることで音声認識率の向上を図る。次に、調理者がそのとき扱っている食材に関する発話において用いられた食材の呼称を解析して、その食材を構成する材料の名前や最終的に至る料理の名前、直前の加工の名前などから、食材の状態を推定する。同時に,調理観測映像を追跡することにより、調理の進行状況を推定する。
|
次年度の研究費の使用計画 |
まず、昨年度の研究成果を国内外の学会で発表および紙面発表するため、旅費および投稿料に研究費の一部を使用する。また、昨年度構築した、レシピテキストに関する固有表現辞書のカバレージや言語モデルの精度は、学習データの量に依存する。昨年度の成果としてモデルが固まったため、今年度は学習データを増やすことに研究費の一部を使用する。また、一般家庭を実験フィールドとするための実験用ソフトウェアを開発するのに研究費の一部を使用する。このソフトウェアでは、調理映像認識機能を実現するための撮影および画像処理機能と、音声対話機能を実現するための音声認識および音声合成機能が実装できる必要がある。このため、料理映像コミュニケーション基盤ソフトウェアIwaCamを使って開発することを予定している。このソフトウェアの開発ライセンス購入と、サーバ保守費の支払いに研究費の一部を充てる。さらに、実験環境を構築するためのカメラやヘッドセットマイク、実験データを移動するためのHDD、実験データを蓄積するためのRAIDなどのハードウェアを購入する。
|