2017 Fiscal Year Annual Research Report
Question generation for spoken dialogue robot to acquire personal knowledge
Project/Area Number |
15J40163
|
Research Institution | The University of Tokyo |
Principal Investigator |
山肩 洋子 東京大学, 情報理工学系研究科, 特別研究員(RPD)
|
Project Period (FY) |
2015-10-09 – 2019-03-31
|
Keywords | 情報検索 / 音声対話 / 質問生成 / 自然言語処理 |
Outline of Annual Research Achievements |
Web上で最も多いデータは消費者生産型コンテンツ(CGM: Consumer Generated Media)である。これにはブログのように、その個人の体験や主張を記述したものであり、必ずしも多くの読者を念頭に置いて作られていないものも多いが、中でも料理レシピは、CGMでありながらも不特定の読者を対象とした教材である点で興味深い。NHK「きょうの料理」や味の素「キユーピー3分クッキング」のように、料理の専門家が作成・編集しているレシピがすでに大量にあるにも関わらず、一般的には素人とみなされるであろう家庭の主婦が投稿したレシピが、クックパッドに280万件、楽天レシピに140万件も登録されており、クックパッドはそのレシピをよりよく活用する機能を提供する有料会員が200万人近くも存在している。このように、必ずしも専門家でない一般ユーザが持つ知識が多くの人々の役に立つ分野であるという点から、本研究では料理レシピを一つのターゲットとして研究を行ってきた。 ユーザ投稿型レシピは、執筆しているのが料理の専門家でない一般ユーザであり、かつ商用のレシピのように専門家が編集しているわけではない。よって、そのデータは不完全なものとなりがちで、ときにその料理を再現することができないほど情報が欠落する場合がある。そこで、大量のレシピを用いることでその情報の欠落を補完し、補完できなかった情報をそのレシピの投稿者から聞き出すための質問を生成することが本研究の目的である。 さらに料理レシピは海外でも人気のコンテンツであり、2015年ごろから、英語のレシピを対象とした研究が多く発表されるようになってきた。提案手法が言語に依存しない汎用的な手法であることを示すためにも、昨年度より英語レシピに対象を拡張して研究を推進してきた。今年度はこれをもとに、大量のレシピから情報を補完する部分について実装した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
知識の表現形式は言語に強く依存している。本研究で着目しているレシピについて言えば、日本のレシピはある程度のまとまりをもった手順に番号を割り振り、その結果生成される中間食材はその手順番号で参照されるという、論理的な構造を持つ。一方で英語のレシピは、手順番号が与えられない場合も多く、そのため、「ソース、生地、麺」など、料理を構成する部品の作り方を別々に説明し、その後それらを混ぜ合わせるという、物語のような形式をとる場合が多い。これは手順の表現形式のみならず、その手順を人間がどのように理解し、人に説明するかと言った入出力のインタフェースに強く影響を及ぼすと考えられる。そこで、提案手法の言語依存性を排除するため、昨年度はイギリスに赴き、英文のレシピの手順説明文の表現構造を解析した。今年度はその英文特有の性質を和文のものと比較することで、言語間の創意を明らかにした。具体的には、申請者らが規格を定めて構築した英文と和文のレシピコーパスを統計的に比較し、この成果は、2017年8月に豪州メルボルンで開催された食の情報処理に関する国際ワークショップCEA2017にて発表を行い、CEA2017 Best Paper Awardを獲得した。 また本研究は、情報検索等により収集されたデータ集合に基づき、データの欠落を補完し、ユーザの発話をより深める質問を生成することを目標としている。このときの質問生成について、申請書に記載したように、検索結果を最も絞り込めるキーワードを選択する手法を実装していたが、上記の国際ワークショップで研究成果を発表した際に、参加者より質問生成手法に関して貴重なコメントをいただいたことから、その検討も同時に行った。そのため、論文投稿料に相当する20万円を翌年度に繰り越した。
|
Strategy for Future Research Activity |
平成29年度では手順情報に関する知識の構造化手法の検討を行い、今年度は言語依存性排除のための日英手順文書の構造比較を行った。ここまでの成果を受けて、平成30年度では、これらを連結して協調動作させる仕組みを評価し、論文化するのと同時に、全体のまとめを行う。本研究では、和文だけでなく英文レシピも対象としてツールを開発し、また本課題の目的のためだけでなく、レシピを対象とする多用な目的に利用可能なよう汎用的に設計した。そこで、これらのリソースを国際的にも広く使用してもらうため、国際学会での発表を行う。具体的には、食の情報処理研究を対象とする国際ワークショップ“10th Workshop on Multimedia for Cooking and Eating Activities”にて発表を行う。どうワークショップは、ヨーロッパを拠点とする、同じく食の情報処理を対象とする国際ワークショップ“4th International Workshop on Multimedia Assisted Dietary Management (MADiMa2018)と共同開催であることから、MADiMa側の参加者とも交流し、広報活動を行う。
|
Research Products
(5 results)