2021 年度実施状況報告書

非対話形式のテキストを用いた対話形式コンテンツの生成

研究課題

研究課題/領域番号	21K19819
研究機関	電気通信大学
研究代表者	稲葉通将電気通信大学, 人工知能先端研究センター, 准教授 (10636202)
研究期間 (年度)	2021-07-09 – 2024-03-31
キーワード	対話生成 / 対話モデル
研究実績の概要	情報伝達の形式として，対話形式を採用することは古今東西で行われてきた．例えば，古代ギリシャの哲学者プラトンの多くの著作は対話形式で書かれており，また，論語は孔子と弟子の間の対話形式となっている．最近でも，ネット上では対話形式で書かれた記事は多く書かれているほか，漫画を用いたもの（まんがでわかるシリーズほか），動画投稿サイトにおける「ゆっくり解説」など，その活用は様々なメディアに広がリ続けている．対話形式の利点は話し言葉であるため，理解しやすくなること，質問応答の形をとりやすく論理展開が明確になること，登場人物(特に質問者・学習者側)に自己を投影して読むことができること，等が挙げられる．しかし，特にテキストに関しては非対話形式で記述されたものがほとんどである．もちろん，対話形式は網羅的な記述に向かないことや，非対話形式と比較して文量が多くなるといった欠点も存在する．しかし，理解しやすさという観点から，文量が多いものや難解な非対話形式の文書を理解するための導入として有用である．そこで本研究では，非対話形式のテキストから，対話形式のテキストコンテンツを生成する技術開発を実施してきた．本年度は，非対話形式のデータとして日本語のニュースデータ，対話形式のデータを用いて，そのテーマに関する知識を与えるための対話形式のテキストコンテンツを生成することを目指し，モデル構築のための予備的な検討を実施した．
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由現在までに，非対話形式のデータとして日本語のニュース記事を対象とし，大規模事前学習済み言語モデルを用いたモデルの研究を実施した．様々なモデルの構造やデータの出入力形式を検討したが，ニュース記事と対話データの表現の乖離が想定よりも大きな問題であり，安定した出力を得ることが困難であるという結論に至った．したがって，当初の計画を変更する必要が生じた．
今後の研究の推進方策	日本語では書き言葉(非対話形式データ)と話し言葉(対話形式データ)の差が大きく，安定した学習を行うことが困難であることが判明したため，言語を英語とし，入力と出力の事前学習を別々に行うなど，表現が異なっていることに対応可能なモデルを検討していく．
次年度使用額が生じた理由	研究がやや遅れていることと，コロナ禍による学会のオンライン化のため，発表のための旅費，評価実験のための支出を行わなかった．翌年度に学会発表や評価実験の費用として使用する予定である．

研究成果
(2件)

すべて学会発表 (2件)

[学会発表] 類似度と一貫性を考慮してシナリオを選択する用例ベース対話システム2021
- 著者名/発表者名
  斉志揚, 秋山一馬, 稲葉通将
- 学会等名
  第93回言語・音声理解と対話処理研究会(第11回対話システムシンポジウム),
[学会発表] 小説を用いたペルソナの抽出と対話システムの自動構築2021
- 著者名/発表者名
  秋山一馬, 稲葉通将
- 学会等名
  第12回対話システムシンポジウム, 第93回言語・音声理解と対話処理研究会(第11回対話システムシンポジウム)