2022 Fiscal Year Annual Research Report

対話情報処理のための知識に基づく適応性・即応性の高い深層学習モデル

Research Project

Project/Area Number	21H03494
Research Institution	The University of Tokyo
Principal Investigator	吉永直樹東京大学, 生産技術研究所, 准教授 (90773961)
Project Period (FY)	2021-04-01 – 2024-03-31
Keywords	適応的言語処理 / 対話情報処理 / 深層学習 / 知識獲得
Outline of Annual Research Achievements	前年度の研究で得られた知見を踏まえて以下の研究を実施した。 (1) まず、学習データから抽出した知識を活用する言語理解・生成モデルの研究を行った。言語理解タスクでは、情報抽出タスクの一つである属性値抽出を対象とし、入力属性が取りうる値を学習データから検索して追加入力する手法を開発した。実験結果から、特に低頻度の事象に関して情報抽出精度が大きく改善することが分かった。続いて、長期間対話のための雑談応答生成モデルの研究を進めた。具体的には、ユーザと対話システム間で複数セッションの対話履歴を想定し、過去の対話履歴から検索した対話を文脈として追加入力する応答生成手法を開発した。提案手法の評価のため、X (旧Twitter) アーカイブから長期間対話データセットを構築し、このデータセットを用いた実験により、過去の対話履歴を検索・利用することの有効性を確認するとともに、応答に役立つ過去の対話を検索する上で、検索のキーとバリューを適切に設計することが重要であることを明らかにした。さらに、モデルに対話履歴の積極的な活用を促すため、履歴を復元するマルチタスク学習を組み合わせた雑談応答生成手法を考案し、その有効性を実験を通して確認した。 (2) 対話情報処理において重要となる、テキスト中のエンティティの理解を行うエンティティリンキング手法を開発した。具体的に、過去の学習データから学習されたエンティティリンキングモデルを、前年度開発したエンティティ検出手法で検出した新エンティティに適用できるようにするため、エンティティの出現文脈や定義文を利用してモデルを拡張する手法を考案した。 (3) 音声対話を扱う際にボトルネックとなる音声認識誤りについて、前後の文脈を考慮した音声認識誤り訂正手法を事前学習済みモデルを用いて実装し、その有効性を予備実験を通して確認した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本年度の研究開発により、複数の言語理解・生成タスクにおいて、知識を活用した深層学習モデルの有効性を確認した。また、テキスト中の実世界知識を適切に扱うためのエンティティリンキング手法も開発した。さらに、音声対話を適切に扱うための音声認識誤り訂正手法も考案して、その有効性を確認しており、全体として順調に進展している。
Strategy for Future Research Activity	今後は本年度の成果を踏まえて、より効率よく知識を活用する深層学習モデルの開発を行う。本年度得られた知見から、(1) 検索拡張型の深層学習モデルにおいては、検索の結果得られた知識に含まれるノイズが知識の効果的な活用を阻害することが分かったため、この点を改善する手法を開発する。また、(2) 知識検索自体のオーバーヘッドを削減し、対話情報処理に適したリアルタイム処理を行うため、記号処理の枠組みで深層学習の限界を越える高速化を実現する手法の開発も進める。並行して、(3) 実世界知識を扱うために、エンティティに関する世界知識をマイクブログ上の投稿を用いて逐次更新する手法についても合わせて検討を行う。 (1) 検索拡張型モデルの高度化: 情報抽出・雑談応答生成タスクを主なターゲットとして、よりタスクに有用な知識をテキストから動的に検索する手法の開発を行う。また、得られた知識を効率良く参照するメカニズムの検討を進める。 (2) 効率の良い知識検索及びその運用手法: 知識を検索し、入力を拡張する深層学習モデルでは、検索のコストがオーバーヘッドとなる。そこで、知識検索自体の効率化を進める。並行して、本体の深層学習モデルを記号処理に基づく効率の良いモデルで近似する手法についても検討を行う。 (3) テキストストリームからのエンティティ知識の獲得手法: 対話において頻繁に参照されるエンティティ知識は、日々発生し消滅するものである。これまで進めてきたエンティティの発生を検知する手法を補完するため、エンティティの消滅を検知する手法を開発する。

Research Products
(23 results)

All 2023 2022

All Journal Article (10 results) (of which Int'l Joint Research: 1 results, Peer Reviewed: 3 results, Open Access: 6 results) Presentation (11 results) (of which Int'l Joint Research: 2 results) Patent(Industrial Property Rights) (2 results)

[Journal Article] ニューラル機械翻訳のためのノイズ寛容なアンカー学習2023
- Author(s)
  根石将人, 吉永直樹
- Journal Title
  
  言語処理学会第29回年次大会発表論文集
  
  Volume: 1 Pages: 2511,2516
- Open Access
[Journal Article] 最長一致パターンに基づく高速・高精度な日本語形態素解析2023
- Author(s)
  吉永直樹
- Journal Title
  
  言語処理学会第29回年次大会発表論文集
  
  Volume: 1 Pages: 351,356
- Open Access
[Journal Article] 雑談対話における会話継続予測に基づくユーザ適応的応答評価2023
- Author(s)
  蔦侑磨, 吉永直樹, 佐藤翔悦, 豊田正史
- Journal Title
  
  言語処理学会第29回年次大会発表論文集
  
  Volume: 1 Pages: 1957,1962
- Open Access
[Journal Article] 情報検索に基づく応答復元とのマルチタスク学習に基づく長期間対話のための応答生成2023
- Author(s)
  髙﨑環, 吉永直樹, 豊田正史
- Journal Title
  
  人工知能学会言語・音声理解と対話処理研究会（SLUD）第 97 回研究会
  
  Volume: 1 Pages: online
[Journal Article] Simple and Effective Knowledge-Driven Query Expansion for QA-Based Product Attribute Extraction2022
- Author(s)
  Shinzato Keiji, Yoshinaga Naoki, Xia Yandi, Chen Wei-Te
- Journal Title
  
  Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)
  
  Volume: 1 Pages: 227,234
- DOI
  10.18653/v1/2022.acl-short.25
- Peer Reviewed / Open Access / Int'l Joint Research
[Journal Article] Entity Embedding Completion for Wide-Coverage Entity Disambiguation2022
- Author(s)
  Oba Daisuke, Yamada Ikuya, Yoshinaga Naoki, Toyoda Masashi
- Journal Title
  
  Findings of the Association for Computational Linguistics: EMNLP 2022
  
  Volume: 1 Pages: 6333,6344
- DOI
  10.18653/v1/2022.findings-emnlp.472
- Peer Reviewed / Open Access
[Journal Article] Effective Dialogue-Context Retriever for Long-Term Open-Domain Conversation2022
- Author(s)
  Meguru Takasaki, Naoki Yoshinaga and Masashi Toyoda
- Journal Title
  
  Proceedings of the 13th International Workshop on Spoken Dialogue Systems Technology
  
  Volume: 1 Pages: online
- Peer Reviewed / Open Access
[Journal Article] スタイル分離に基づくスタイル変換と異常検知の同時学習に基づく文書のスタイル一貫性の改善2022
- Author(s)
  京野長彦, 吉永直樹, 佐藤翔悦
- Journal Title
  
  情報処理学会研究報告 NL-253
  
  Volume: 1 Pages: online
[Journal Article] 前後の発話を文脈として考慮するニューラル音声認識誤り訂正2022
- Author(s)
  中村朝陽, 李聖民, 田村鴻希, 吉永直樹
- Journal Title
  
  情報処理学会研究報告 NL-254
  
  Volume: 1 Pages: online
[Journal Article] 長期間の過去文脈を効果的に活用した雑談対話システム2022
- Author(s)
  髙﨑環, 吉永直樹, 豊田正史
- Journal Title
  
  第13回対話システムシンポジウム
  
  Volume: 1 Pages: online
[Presentation] Effective Dialogue-Context Retriever for Long-Term Open-Domain Conversation2023
- Author(s)
  Meguru Takasaki, Naoki Yoshinaga and Masashi Toyoda
- Organizer
  The 13th International Workshop on Spoken Dialogue Systems Technology
- Int'l Joint Research
[Presentation] ニューラル機械翻訳のためのノイズ寛容なアンカー学習2023
- Author(s)
  根石将人, 吉永直樹
- Organizer
  言語処理学会第29回年次大会
[Presentation] 最長一致パターンに基づく高速・高精度な日本語形態素解析2023
- Author(s)
  吉永直樹
- Organizer
  言語処理学会第29回年次大会
[Presentation] 雑談対話における会話継続予測に基づくユーザ適応的応答評価2023
- Author(s)
  蔦侑磨, 吉永直樹, 佐藤翔悦, 豊田正史
- Organizer
  言語処理学会第29回年次大会
[Presentation] 情報検索に基づく応答復元とのマルチタスク学習に基づく長期間対話のための応答生成2023
- Author(s)
  髙﨑環, 吉永直樹, 豊田正史
- Organizer
  人工知能学会言語・音声理解と対話処理研究会（SLUD）第 97 回研究会
[Presentation] Simple and Effective Knowledge- Driven Query Expansion for QA-Based Product Attribute Extraction2022
- Author(s)
  Keiji Shinzato, Naoki Yoshinaga, Yandi Xia, Wei-Te Chen
- Organizer
  The 60th Annual Meeting of the Association for Computational Linguistics
- Int'l Joint Research
[Presentation] 文脈を考慮したニューラル音声認識誤り訂正2022
- Author(s)
  中村朝陽, 吉永直樹
- Organizer
  NLP 若手の会第 17 回シンポジウム
[Presentation] Multimodal Sentiment Classification using Modal- independent Classifiers2022
- Author(s)
  ティヤジャーモンナッタポン, 吉永直樹
- Organizer
  NLP 若手の会第 17 回シンポジウム
[Presentation] スタイル分離に基づくスタイル変換と異常検知の同時学習に基づく文書のスタイル一貫性の改善2022
- Author(s)
  京野長彦, 吉永直樹, 佐藤翔悦
- Organizer
  情報処理学会第253回自然言語処理研究発表会
[Presentation] 前後の発話を文脈として考慮するニューラル音声認識誤り訂正2022
- Author(s)
  中村朝陽, 李聖民, 田村鴻希, 吉永直樹
- Organizer
  情報処理学会第254回自然言語処理研究発表会
[Presentation] 長期間の過去文脈を効果的に活用した雑談対話システム2022
- Author(s)
  髙﨑環, 吉永直樹, 豊田正史
- Organizer
  第13回対話システムシンポジウム
[Patent(Industrial Property Rights)] 学習システム、属性値抽出システム、学習方法、及びプログラム2022
- Inventor(s)
  吉永直樹
- Industrial Property Rights Holder
  吉永直樹
- Industrial Property Rights Type
  特許
- Industrial Property Number
  2022-073474
[Patent(Industrial Property Rights)] 言語処理装置、機械学習方法、推定方法及びプログラム2022
- Inventor(s)
  吉永直樹
- Industrial Property Rights Holder
  吉永直樹
- Industrial Property Rights Type
  特許
- Industrial Property Number
  2022-095169

2022 Fiscal Year Annual Research Report

対話情報処理のための知識に基づく適応性・即応性の高い深層学習モデル

Principal Investigator

吉永 直樹 東京大学, 生産技術研究所, 准教授 (90773961)

Current Status of Research Progress

Reason

Research Products

[Journal Article] ニューラル機械翻訳のためのノイズ寛容なアンカー学習2023

Author(s)

Journal Title

[Journal Article] 最長一致パターンに基づく高速・高精度な日本語形態素解析2023

Author(s)

Journal Title

[Journal Article] 雑談対話における会話継続予測に基づくユーザ適応的応答評価2023

Author(s)

Journal Title

[Journal Article] 情報検索に基づく応答復元とのマルチタスク学習に基づく長期間対話のための応答生成2023

Author(s)

Journal Title

[Journal Article] Simple and Effective Knowledge-Driven Query Expansion for QA-Based Product Attribute Extraction2022

Author(s)

Journal Title

DOI

[Journal Article] Entity Embedding Completion for Wide-Coverage Entity Disambiguation2022

Author(s)

Journal Title

DOI

[Journal Article] Effective Dialogue-Context Retriever for Long-Term Open-Domain Conversation2022

Author(s)

Journal Title

[Journal Article] スタイル分離に基づくスタイル変換と異常検知の同時学習に基づく文 書のスタイル一貫性の改善2022

Author(s)

Journal Title

[Journal Article] 前後の発話を文脈として考慮するニューラル音声認識誤り訂正2022

Author(s)

Journal Title

[Journal Article] 長期間の過去文脈を効果的に活用した雑談対話システム2022

Author(s)

Journal Title

[Presentation] Effective Dialogue-Context Retriever for Long-Term Open-Domain Conversation2023

Author(s)

Organizer

[Presentation] ニューラル機械翻訳のためのノイズ寛容なアンカー学習2023

Author(s)

Organizer

[Presentation] 最長一致パターンに基づく高速・高精度な日本語形態素解析2023

Author(s)

Organizer

[Presentation] 雑談対話における会話継続予測に基づくユーザ適応的応答評価2023

Author(s)

Organizer

[Presentation] 情報検索に基づく応答復元とのマルチタスク学習に基づく長期間対話のための応答生成2023

Author(s)

Organizer

[Presentation] Simple and Effective Knowledge- Driven Query Expansion for QA-Based Product Attribute Extraction2022

Author(s)

Organizer

[Presentation] 文脈を考慮したニューラル音声認識誤り訂正2022

Author(s)

Organizer

[Presentation] Multimodal Sentiment Classification using Modal- independent Classifiers2022

Author(s)

Organizer

[Presentation] スタイル分離に基づくスタイル変換と異常検知の同時学習に基づく文 書のスタイル一貫性の改善2022

Author(s)

Organizer

[Presentation] 前後の発話を文脈として考慮するニューラル音声認識誤り訂正2022

Author(s)

Organizer

[Presentation] 長期間の過去文脈を効果的に活用した雑談対話システム2022

Author(s)

Organizer

[Patent(Industrial Property Rights)] 学習システム、属性値抽出システム、学習方法、及びプログラム2022

Inventor(s)

Industrial Property Rights Holder

Industrial Property Rights Type

Industrial Property Number

[Patent(Industrial Property Rights)] 言語処理装置、機械学習方法、推定方法及びプログラム2022

Inventor(s)

Industrial Property Rights Holder

吉永直樹東京大学, 生産技術研究所, 准教授 (90773961)

[Journal Article] スタイル分離に基づくスタイル変換と異常検知の同時学習に基づく文書のスタイル一貫性の改善2022

[Presentation] スタイル分離に基づくスタイル変換と異常検知の同時学習に基づく文書のスタイル一貫性の改善2022