2021 Fiscal Year Research-status Report
非対話形式のテキストを用いた対話形式コンテンツの生成
Project/Area Number |
21K19819
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
稲葉 通将 電気通信大学, 人工知能先端研究センター, 准教授 (10636202)
|
Project Period (FY) |
2021-07-09 – 2024-03-31
|
Keywords | 対話生成 / 対話モデル |
Outline of Annual Research Achievements |
情報伝達の形式として,対話形式を採用することは古今東西で行われてきた.例えば,古代ギリシャの哲学者プラトンの多くの著作は対話形式で書かれており,また,論語は孔子と弟子の間の対話形式となっている.最近でも,ネット上では対話形式で書かれた記事は多く書かれているほか,漫画を用いたもの(まんがでわかるシリーズ ほか),動画投稿サイトにおける「ゆっくり解説」など,その活用は様々なメディアに広がリ続けている. 対話形式の利点は話し言葉であるため,理解しやすくなること,質問応答の形をとりやすく論理展開が明確になること,登場人物(特に質問者・学習者側)に自己を投影して読むことができること,等が挙げられる.しかし,特にテキストに関しては非対話形式で記述されたものがほとんどである.もちろん,対話形式は網羅的な記述に向かないことや,非対話形式と比較して文量が多くなるといった欠点も存在する.しかし,理解しやすさという観点から,文量が多いものや難解な非対話形式の文書を理解するための導入として有用である.そこで本研究では,非対話形式のテキストから,対話形式のテキストコンテンツを生成する技術開発を実施してきた. 本年度は,非対話形式のデータとして日本語のニュースデータ,対話形式のデータを用いて,そのテーマに関する知識を与えるための対話形式のテキストコンテンツを生成することを目指し,モデル構築のための予備的な検討を実施した.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
現在までに,非対話形式のデータとして日本語のニュース記事を対象とし,大規模事前学習済み言語モデルを用いたモデルの研究を実施した.様々なモデルの構造やデータの出入力形式を検討したが,ニュース記事と対話データの表現の乖離が想定よりも大きな問題であり,安定した出力を得ることが困難であるという結論に至った.したがって,当初の計画を変更する必要が生じた.
|
Strategy for Future Research Activity |
日本語では書き言葉(非対話形式データ)と話し言葉(対話形式データ)の差が大きく,安定した学習を行うことが困難であることが判明したため,言語を英語とし,入力と出力の事前学習を別々に行うなど,表現が異なっていることに対応可能なモデルを検討していく.
|
Causes of Carryover |
研究がやや遅れていることと,コロナ禍による学会のオンライン化のため,発表のための旅費,評価実験のための支出を行わなかった.翌年度に学会発表や評価実験の費用として使用する予定である.
|
Research Products
(2 results)