気づきの機会を創出するインタビュー対話システムの研究

研究課題

研究課題/領域番号	22K12213
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61050:知能ロボティクス関連
研究機関	香川高等専門学校
研究代表者	篠山学香川高等専門学校, 情報工学科, 准教授 (60508232)
研究分担者	松本和幸徳島大学, 大学院社会産業理工学研究部(理工学域), 准教授 (90509754)
研究期間 (年度)	2022-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	2,470千円 (直接経費: 1,900千円、間接経費: 570千円) 2024年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2023年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2022年度: 520千円 (直接経費: 400千円、間接経費: 120千円)
キーワード	大規模言語モデル / プレ・インタビュー対話システム / 評価実験 / transformer / 必須格 / 問い返し / 深層格 / 気づき / インタビュー対話 / インタビュー手法
研究開始時の研究の概要	人が自身の価値に気づく機会の一つに他者との対話がある．例えば，人から尋ねられてその回答を考えることで子供のころの夢などを思い出せたり，自分の行動を俯瞰できたりする．しかし，世界的な環境の変化により，人と会って対話する機会が減少している．そのため，気づきが得られる機会を創出することは重要である．そこで，これまでに構築したインタビュー対話コーパスを用いて人が気づきを得られる対話ロボットの研究を行う．本研究により，気づきを得られる対話システムが構築でき，気づきを得た対話も収集できる．また，収集した対話を分析することで，ユーザが気づきを得るための質問文の生成方法や相槌の挿入方法などを明らかにできる．
研究実績の概要	当該年度は，構築した生成AIによる実証実験用のプレ・インタビュー対話システムの評価を行った．評価には，生成AIによる発話ペア300ペアと，インタビュー対話コーパスからランダムに組み合わせた発話ペア300を用いた．生成AIによる発話ペアは，インタビュー対話コーパスのゲスト発話300文を生成AIへの入力とし，入力文と得られた生成文を発話ペアにしている．生成AIによる発話ペア100ペアとランダムに組み合わせた発話ペア100を1グループとして3グループ作成した．1グループにつき被験者3名が評価を行った．評価は発話ペアに脈絡があるかないかを判断した．なお，被験者に生成AIペアかランダムペアかの予測ができないよう，各グループ内はペアごとにランダムに並び替えた．脈絡ありと回答した人数が2人以上の発話ペアを集計した．集計の結果，生成AIによる発話ペアでは約60%が脈絡ありと判定された．ランダムに組み合わせた発話ペアでは約20%が脈絡ありと判定された．生成AIによるインタビュアーの文の生成は不十分であるといえる．他には，発話意図タグの推定を大規模言語モデルを用いて再度行った．複文などは発話意図タグを付与するには情報量が多すぎると考え，係り受け解析を用いて述語動詞とその主語や修飾語だけから発話意図タグを付与することを考えた．また，対話文を収集した際に個人が特定されることを防ぐため，対話文向けの個人情報の匿名化手法を検討した．既存研究では，医療用データベースのように多人数の個人情報が含まれることを前提としており，1対1の対話テキストなどの個人情報が含まれている個人が少人数のデータに対しては有効でない．そこで1対1の対話テキストに対して，間接識別情報を適切に匿名化することで、匿名化による情報量の減少を抑えた匿名加工情報を作成した．
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由計画はやや遅れている．原因としては，2022年11月に発表されたChatGPTが極めて自然な対話を実現しており，当初の研究計画を変更するか検討したためである．検討の結果，利用コストやプロンプトの作成コスト，バージョン変更によるプロンプトの汎用性への懸念，気づきを得るために入力する個人情報の漏洩への懸念があり，ChatGPTを利用しないメリットも多く存在することから，当初の計画通りインタビュー対話システムを構築して評価することとなった．プレ・インタビュー対話システムの評価を行ったが，現在作成したインタビュー対話モデルでは脈絡のあるインタビュアーの発話が60%しか生成できない．複数発話続けたときにはさらに精度が落ちると考えられるため，話題毎に生成モデルを作成する必要があり，現在話題毎に自動で分類するための条件を検討中である．
今後の研究の推進方策	話題データベースを構築し，話題毎に対話モデルを学習することで脈絡のある発話を生成できるモデルを話題毎に作成する．現在インタビュー対話コーパスから話題データベースを自動で構築するための話題区切りの条件を検討中である．具体的には，話題の提示に用いられる助詞「は」の有無や話題間の距離，インタビュアー特有の話題転換の語尾等を用いる予定である．作成した話題区切りの条件を基に話題データベースを構築し，話題毎に生成AIをファインチューニングする．発話ごとに話題を判定し，最も近い話題のモデルから発話を生成する．10対話程度継続するようにする．評価は被験者に対話してもらい，生成された発話の脈絡についてや気づきを得られたかどうかについて評価する．

報告書

(2件)

2023 実施状況報告書
2022 実施状況報告書

研究成果
(4件)

すべて 2023 2022

すべて学会発表 (4件)

[学会発表] 対話テキストにおける間接識別情報の匿名化2023
- 著者名/発表者名
  石川将丈, 篠山学, 松本和幸
- 学会等名
  令和6年電気学会全国大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] インタビュー対話における発話意図の推定2023
- 著者名/発表者名
  髙森翔琉, 篠山学, 松本和幸
- 学会等名
  令和6年電気学会全国大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 褒めを導入したインタビュー対話システム2023
- 著者名/発表者名
  猪谷瑠里花，松本和幸，篠山学，吉田稔
- 学会等名
  令和6年電気学会全国大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] インタビュー対話における問い返し文の生成に関する検討2022
- 著者名/発表者名
  篠山学，木内敬太，康シン，西村良太，松本和幸
- 学会等名
  言語処理学会第29回年次大会
- 関連する報告書
  2022 実施状況報告書