Autonomous improvement of spoken ialogue systems through incremental knowledge acquisition

Research Project

Project/Area Number	22H00536
Research Category	Grant-in-Aid for Scientific Research (A)
Allocation Type	Single-year Grants
Section	一般
Review Section	Medium-sized Section 61:Human informatics and related fields
Research Institution	The University of Osaka
Principal Investigator	駒谷和範大阪大学, 産業科学研究所, 教授 (40362579)
Co-Investigator(Kenkyū-buntansha)	岡田将吾北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (00512261) 武田龍大阪大学, 産業科学研究所, 准教授 (20749527)
Project Period (FY)	2022-04-01 – 2026-03-31
Project Status	Granted (Fiscal Year 2025)
Budget Amount *help	¥42,250,000 (Direct Cost: ¥32,500,000、Indirect Cost: ¥9,750,000) Fiscal Year 2025: ¥10,530,000 (Direct Cost: ¥8,100,000、Indirect Cost: ¥2,430,000) Fiscal Year 2024: ¥10,530,000 (Direct Cost: ¥8,100,000、Indirect Cost: ¥2,430,000) Fiscal Year 2023: ¥9,880,000 (Direct Cost: ¥7,600,000、Indirect Cost: ¥2,280,000) Fiscal Year 2022: ¥11,310,000 (Direct Cost: ¥8,700,000、Indirect Cost: ¥2,610,000)
Keywords	対話システム / 能動学習 / ドメイン知識獲得 / ユーザ適応 / ユーザ心象 / 未知語 / 知識グラフ補完
Outline of Research at the Start	本研究では，音声対話システムが対話を通じて自律的に学習データをオンラインで取得し，機械学習モデルを更新することで，「話すうちに賢くなる」システムの実現を目指す．まずシステムからの質問により，システム性能の向上に繋がる情報を得ることを効用として定式化する．同時に，システムの単調な質問はユーザの対話意欲を削ぐため，質問によるユーザ心象もモデル化する．この効用とユーザ心象の両方を，報酬や観測に組み込んで定式化し，最適な質問を選択しながら対話するシステムを実現する．これにより相手に応じて自律進化できる音声対話システムの基盤技術を確立する．
Outline of Annual Research Achievements	音声対話システムが対話を通じて自律的に学習データを取得する機能の実現を目指している．具体的は，音声対話システム内の音声認識，マルチモーダル心象推定，対話に用いる知識などの各モジュールを高精度化する．対話を通じてこれらに繋がる教師ラベルを選択的に取得するために，まず各モジュールの精度を向上させる方法や得られる効用について研究開発を進めている．本年度はまず音声認識の自律進化に向け，未知語の音声認識問題に着手した．近年進展が著しいend-to-end音声認識器による音節列を得て，ユーザ発話中の未知語を切り出す手法を開発した．ここでユーザの発話パターンを利用し，既知語彙は辞書中のエントリとして認識し，未知語の部分は音節列として同定する．次にシステムの持つ知識グラフを増強するために，他の知識源から得た情報を，現有の知識グラフに拡充する問題に取り組んだ．この際に，同一エンティティを指す表記を統合した方が，エンティティあたりの関係の数が増え，知識グラフ補完性能が向上することを見出した．これはエンティティ追加の効用設計に繋がる知見である．一方，大規模言語モデルGPT-2を用いた知識グラフの増強については，国際会議での採択には至らなかった．引き続き成果発表を試みる．ユーザ心象を精緻に推定するために，言語情報・生体信号を自己注意機構モデルにおいて統合する方法を提案・評価した．各交換中に発話された単語列を，皮膚電位の高低により重みづけした上で自己注意機構を訓練することで，言語特徴のみを用いた場合よりも，本人心象ラベルの推定性能を向上させた．この手法は，対話を通じたユーザ本人の心象に関する知識の獲得に寄与する．また，交換単位の心象変化を考慮して，対話全体に対する事後アンケート結果をより高精度に推定する手法も開発した．上記2つの成果は関連分野の国際会議に採択され，成果発表に至った．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 新規に立ち上げたテーマについて成果が形になり始めている．この一部として，情報処理学会全国大会で学生奨励賞を複数受賞した．
Strategy for Future Research Activity	音声認識，マルチモーダル認識，知識獲得の各モジュールにおいて，得られた知見の一般化や効用設計へと発展させる．また得られた成果について国際会議への投稿および成果発表を行う．

Report

(2 results)

2022 Comments on the Screening Results Annual Research Report

Research Products
(34 results)

All 2023 2022

All Journal Article (21 results) (of which Int'l Joint Research: 5 results, Peer Reviewed: 19 results, Open Access: 10 results) Presentation (12 results) (of which Int'l Joint Research: 1 results) Book (1 results)

[Journal Article] Intrinsic Representation Mining for Zero-Shot Slot Filling2022
- Author(s)
  LI Sixia、OKADA Shogo、DANG Jianwu
- Journal Title
  
  IEICE Transactions on Information and Systems
  
  Volume: E105.D Issue: 11 Pages: 1947-1956
- DOI
  10.1587/transinf.2022EDP7026
- ISSN
  0916-8532, 1745-1361
- Year and Date
  2022-11-01
- Related Report
  2022 Annual Research Report
- Peer Reviewed / Int'l Joint Research
[Journal Article] Design Guidelines for Developing Systems for Dialogue System Competitions2022
- Author(s)
  Takeda Ryu、Komatani Kazunori、Nakashima Keisuke、Nakano Mikio
- Journal Title
  
  Transactions of the Japanese Society for Artificial Intelligence
  
  Volume: 37 Issue: 3 Pages: IDS-B_1-9
- DOI
  10.1527/tjsai.37-3_IDS-B
- ISSN
  1346-0714, 1346-8030
- Year and Date
  2022-05-01
- Related Report
  2022 Annual Research Report
- Peer Reviewed / Open Access
[Journal Article] Design and release of a multimodal dialogue corpus2022
- Author(s)
  駒谷和範
- Journal Title
  
  THE JOURNAL OF THE ACOUSTICAL SOCIETY OF JAPAN
  
  Volume: 78 Issue: 5 Pages: 265-270
- DOI
  10.20697/jasj.78.5_265
- ISSN
  0369-4232, 2432-2040
- Year and Date
  2022-05-01
- Related Report
  2022 Annual Research Report
- Open Access
[Journal Article] Context- and Knowledge-Aware Graph Convolutional Network for Multimodal Emotion Recognition2022
- Author(s)
  Fu Yahui、Okada Shogo、Wang Longbiao、Guo Lili、Song Yaodong、Liu Jiaxing、Dang Jianwu
- Journal Title
  
  IEEE MultiMedia
  
  Volume: 29 Issue: 3 Pages: 91-100
- DOI
  10.1109/mmul.2022.3173430
- Related Report
  2022 Annual Research Report
- Peer Reviewed / Int'l Joint Research
[Journal Article] Dementia Scale Score Classification Based on Daily Activities Using Multiple Sensors2022
- Author(s)
  Minamisawa Akira、Okada Shogo、Inoue Ken、Noguchi Mami
- Journal Title
  
  IEEE Access
  
  Volume: 10 Pages: 38931-38943
- DOI
  10.1109/access.2022.3165208
- Related Report
  2022 Annual Research Report
- Peer Reviewed
[Journal Article] Effects of Physiological Signals in Different Types of Multimodal Sentiment Estimation2022
- Author(s)
  Katada Shun、Okada Shogo、Komatani Kazunori
- Journal Title
  
  IEEE Transactions on Affective Computing
  
  Volume: - Issue: 3 Pages: 1-1
- DOI
  10.1109/taffc.2022.3155604
- Related Report
  2022 Annual Research Report
- Peer Reviewed / Open Access / Int'l Joint Research
[Journal Article] Biosignal-based user-independent recognition of emotion and personality with importance weighting2022
- Author(s)
  Katada Shun、Okada Shogo
- Journal Title
  
  Multimedia Tools and Applications
  
  Volume: - Issue: 21 Pages: 30219-30241
- DOI
  10.1007/s11042-022-12711-8
- Related Report
  2022 Annual Research Report
- Peer Reviewed / Int'l Joint Research
[Journal Article] Multimodal Analysis for Communication Skill and Self-Efficacy Level Estimation in Job Interview Scenario2022
- Author(s)
  Ohba Tomoya、Mawalim Candy Olivia、Katada Shun、Kuroki Haruki、Okada Shogo
- Journal Title
  
  In proceedings of the 21st International Conference on Mobile and Ubiquitous Multimedia
  
  Volume: - Pages: 110-120
- DOI
  10.1145/3568444.3568461
- Related Report
  2022 Annual Research Report
- Peer Reviewed / Open Access
[Journal Article] Investigating the relationship between dialogue and exchange-level impression2022
- Author(s)
  Wei Wenqing、Li Sixia、Okada Shogo
- Journal Title
  
  In proceedings of the 2022 International Conference on Multimodal Interaction
  
  Volume: - Pages: 359-367
- DOI
  10.1145/3536221.3556602
- Related Report
  2022 Annual Research Report
- Peer Reviewed
[Journal Article] Transformer-Based Physiological Feature Learning for Multimodal Analysis of Self-Reported Sentiment2022
- Author(s)
  Katada Shun、Okada Shogo、Komatani Kazunori
- Journal Title
  
  International Conference on Multimodal Interaction
  
  Volume: - Pages: 349-358
- DOI
  10.1145/3536221.3556576
- Related Report
  2022 Annual Research Report
- Peer Reviewed / Open Access
[Journal Article] OBISHI: Objective Binaural Intelligibility Score for the Hearing Impaired2022
- Author(s)
  Candy Olivia Mawalim, Benita Angela Titalim, Masashi Unoki, and Shogo Okada
- Journal Title
  
  Australasian International Conference on Speech Science and Technology, Canberra, Australia, 2022
  
  Volume: -
- Related Report
  2022 Annual Research Report
- Peer Reviewed
[Journal Article] Speech Intelligibility Prediction for Hearing Aids Using an Auditory Model and Acoustic Parameters2022
- Author(s)
  Titalim Benita Angela、Mawalim Candy Olivia、Okada Shogo、Unoki Masashi
- Journal Title
  
  In proceedings of 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)
  
  Volume: - Pages: 1077-1085
- DOI
  10.23919/apsipaasc55919.2022.9980000
- Related Report
  2022 Annual Research Report
- Peer Reviewed
[Journal Article] F0 Modification via PV-TSM Algorithm for Speaker Anonymization Across Gender2022
- Author(s)
  Mawalim Candy Olivia、Okada Shogo、Unoki Masashi
- Journal Title
  
  In proceedings of 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)
  
  Volume: - Pages: 196-203
- DOI
  10.23919/apsipaasc55919.2022.9979993
- Related Report
  2022 Annual Research Report
- Peer Reviewed
[Journal Article] Investigation of noise-reverberation-robustness of modulation spectral features for speech-emotion recognition2022
- Author(s)
  Guo Taiyang、Li Sixia、Unoki Masashi、Okada Shogo
- Journal Title
  
  In proceedings of 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)
  
  Volume: - Pages: 39-46
- DOI
  10.23919/apsipaasc55919.2022.9980032
- Related Report
  2022 Annual Research Report
- Peer Reviewed
[Journal Article] Speaker Anonymization by Pitch Shifting Based on Time-Scale Modification2022
- Author(s)
  Candy Olivia Mawalim, Shogo Okada, and Masashi Unoki
- Journal Title
  
  2nd Symposium on Security and Privacy in Speech Communication joined with 2nd VoicePrivacy Challenge Workshop
  
  Volume: - Pages: 35-42
- DOI
  10.21437/spsc.2022-7
- Related Report
  2022 Annual Research Report
- Peer Reviewed
[Journal Article] Domain-Invariant Feature Learning for Cross Corpus Speech Emotion Recognition2022
- Author(s)
  Gao Yuan、Okada Shogo、Wang Longbiao、Liu Jiaxing、Dang Jianwu
- Journal Title
  
  In proceedings of 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
  
  Volume: - Pages: 6427-6431
- DOI
  10.1109/icassp43922.2022.9747129
- Related Report
  2022 Annual Research Report
- Peer Reviewed / Int'l Joint Research
[Journal Article] Lexical Acquisition during Dialogues through Implicit Confirmation2022
- Author(s)
  Komatani Kazunori、Ono Kohei、Takeda Ryu、Nichols Eric、Nakano Mikio
- Journal Title
  
  Dialogue & Discourse
  
  Volume: 13 Issue: 1 Pages: 96-122
- DOI
  10.5210/dad.2022.104
- Related Report
  2022 Annual Research Report
- Peer Reviewed / Open Access
[Journal Article] Graph-combined Coreference Resolution Methods on Conversational Machine Reading Comprehension with Pre-trained Language Model2022
- Author(s)
  Wang Zhaodong、Komatani Kazunori
- Journal Title
  
  Second DialDoc Workshop on Document-grounded Dialogue and Conversational Question Answering
  
  Volume: - Pages: 72-82
- DOI
  10.18653/v1/2022.dialdoc-1.8
- Related Report
  2022 Annual Research Report
- Peer Reviewed / Open Access
[Journal Article] Training Data Generation with DOA-based Selecting and Remixing for Unsupervised Training of Deep Separation Models2022
- Author(s)
  Munakata Hokuto、Takeda Ryu、Komatani Kazunori
- Journal Title
  
  Interspeech
  
  Volume: - Pages: 861-865
- DOI
  10.21437/interspeech.2022-69
- Related Report
  2022 Annual Research Report
- Peer Reviewed / Open Access
[Journal Article] Empirical Sampling from Latent Utterance-wise Evidence Model for Missing Data ASR based on Neural Encoder-Decoder Model2022
- Author(s)
  Takeda Ryu、Sudo Yui、Nakadai Kazuhiro、Komatani Kazunori
- Journal Title
  
  Interspeech
  
  Volume: - Pages: 3789-3793
- DOI
  10.21437/interspeech.2022-576
- Related Report
  2022 Annual Research Report
- Peer Reviewed / Open Access
[Journal Article] Multimodal Dialogue Corpus Hazumi2022
- Author(s)
  Komatani Kazunori、Okada Shogo
- Journal Title
  
  Journal of Natural Language Processing
  
  Volume: 29 Issue: 4 Pages: 1322-1329
- DOI
  10.5715/jnlp.29.1322
- ISSN
  1340-7619, 2185-8314
- Related Report
  2022 Annual Research Report
- Open Access
[Presentation] 本人心象と第三者心象の推定におけるマルチモーダル情報と生体信号の役割の分析2023
- Author(s)
  堅田俊, 岡田将吾, 駒谷和範
- Organizer
  電子情報通信学会ヒューマンコミュニケーション基礎研究会
- Related Report
  2022 Annual Research Report
[Presentation] 対話中のユーザの返答パターンに基づく音声発話中の未知語認識2023
- Author(s)
  大塩　幹, 宗像北斗, 武田龍, 駒谷和範
- Organizer
  情報処理学会全国大会
- Related Report
  2022 Annual Research Report
[Presentation] 知識グラフ補完性能向上のための同一エンティティ判定を用いた知識グラフ拡充2023
- Author(s)
  近辻脩壱, 宗像北斗, 武田龍, 駒谷和範
- Organizer
  情報処理学会全国大会
- Related Report
  2022 Annual Research Report
[Presentation] 音源定位・分離の同時学習に基づく移動音源の深層ブラインド音源分離2023
- Author(s)
  宗像北斗, 坂東宜昭, 武田龍, 駒谷和範, 大西正輝
- Organizer
  情報処理学会全国大会
- Related Report
  2022 Annual Research Report
[Presentation] カエルの合唱音声に対する教師ありモノラル音源分離のための音声合成によるデータ拡張2023
- Author(s)
  生嶋竜実, 武田龍, 合原一究, 駒谷和範
- Organizer
  情報処理学会全国大会
- Related Report
  2022 Annual Research Report
[Presentation] マルチモーダル対話におけるユーザごとの心象推定のための学習データの割当て2023
- Author(s)
  久保裕之輔, 羅兆傑, 武田龍, 駒谷和範
- Organizer
  情報処理学会全国大会
- Related Report
  2022 Annual Research Report
[Presentation] マルチモーダル対話におけるクロスコーパスでの心象推定のための特徴量選択2023
- Author(s)
  久保祐喜, 羅兆傑, 武田龍, 駒谷和範
- Organizer
  情報処理学会全国大会
- Related Report
  2022 Annual Research Report
[Presentation] 生体信号時系列と言語系列の注意機構に基づく本人心象推定2022
- Author(s)
  堅田俊，岡田将吾，駒谷和範
- Organizer
  HCGシンポジウム2022
- Related Report
  2022 Annual Research Report
[Presentation] Team OS’s System for Dialogue Robot Competition 20222022
- Author(s)
  Yuki Kubo, Ryo Yanagimoto, Hayato Futase, Mikio Nakano, Zhaojie Luo, Kazunori Komatani
- Organizer
  Dialogue Robot Competition 2022
- Related Report
  2022 Annual Research Report
- Int'l Joint Research
[Presentation] 物体検出器により得た確信度が対話システム性能に与える影響2022
- Author(s)
  谷口琉聖, 武田龍, 駒谷和範, 翠輝久, 細見直希, 山田健太郎
- Organizer
  第96回言語・音声理解と対話処理研究会（第13回対話システムシンポジウム）
- Related Report
  2022 Annual Research Report
[Presentation] マルチモーダル対話コーパスに対する主観的アノテーション結果に関する分析2022
- Author(s)
  駒谷和範, 武田龍, 岡田将吾
- Organizer
  第96回言語・音声理解と対話処理研究会（第13回対話システムシンポジウム）
- Related Report
  2022 Annual Research Report
[Presentation] DialBB: 情報技術の教材を指向した対話システム構築フレームワーク2022
- Author(s)
  中野幹生, 駒谷和範
- Organizer
  第96回言語・音声理解と対話処理研究会（第13回対話システムシンポジウム）
- Related Report
  2022 Annual Research Report
[Book] 音響学講座７　音声（下）2023
- Author(s)
  岩野公司、河原達也、篠田浩一、伊藤彰則、増村亮、小川哲司、駒谷和範
- Total Pages
  208
- Publisher
  コロナ社
- ISBN
  9784339013672
- Related Report
  2022 Annual Research Report

Autonomous improvement of spoken ialogue systems through incremental knowledge acquisition

Principal Investigator

駒谷 和範 大阪大学, 産業科学研究所, 教授 (40362579)

¥42,250,000 (Direct Cost: ¥32,500,000、Indirect Cost: ¥9,750,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Intrinsic Representation Mining for Zero-Shot Slot Filling2022

Author(s)

Journal Title

DOI

ISSN

Year and Date

Related Report

[Journal Article] Design Guidelines for Developing Systems for Dialogue System Competitions2022

Author(s)

Journal Title

DOI

ISSN

Year and Date

Related Report

[Journal Article] Design and release of a multimodal dialogue corpus2022

Author(s)

Journal Title

DOI

ISSN

Year and Date

Related Report

[Journal Article] Context- and Knowledge-Aware Graph Convolutional Network for Multimodal Emotion Recognition2022

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Dementia Scale Score Classification Based on Daily Activities Using Multiple Sensors2022

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Effects of Physiological Signals in Different Types of Multimodal Sentiment Estimation2022

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Biosignal-based user-independent recognition of emotion and personality with importance weighting2022

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Multimodal Analysis for Communication Skill and Self-Efficacy Level Estimation in Job Interview Scenario2022

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Investigating the relationship between dialogue and exchange-level impression2022

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Transformer-Based Physiological Feature Learning for Multimodal Analysis of Self-Reported Sentiment2022

Author(s)

Journal Title

DOI

Related Report

[Journal Article] OBISHI: Objective Binaural Intelligibility Score for the Hearing Impaired2022

Author(s)

Journal Title

Related Report

[Journal Article] Speech Intelligibility Prediction for Hearing Aids Using an Auditory Model and Acoustic Parameters2022

Author(s)

Journal Title

DOI

Related Report

[Journal Article] F0 Modification via PV-TSM Algorithm for Speaker Anonymization Across Gender2022

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Investigation of noise-reverberation-robustness of modulation spectral features for speech-emotion recognition2022

Author(s)

駒谷和範大阪大学, 産業科学研究所, 教授 (40362579)