A study on content summarization for large spoken documents and content retrieval through spoken dialogue

Research Project

Project/Area Number	13480095
Research Category	Grant-in-Aid for Scientific Research (B)
Allocation Type	Single-year Grants
Section	一般
Research Field	Intelligent informatics
Research Institution	Toyohashi University of Technology
Principal Investigator	NAKAGAWA Seiichi Toyohashi University of Technology, Department of Information and Computer Sciences, 工学部, 教授 (20115893)
Co-Investigator(Kenkyū-buntansha)	NITTA Tsuneo Toyohashi University of Technology, Department of Knowledge-based Information Engineering, 大学院・工学研究科, 教授 (70314101) MASUYAMA Shigeru Toyohashi University of Technology, Department of Knowledge-based Information Engineering, 工学部, 教授 (60173762) KITAOKA Norihide Toyohashi University of Technology, Department of Information and Computer Sciences, 工学部, 講師 (10333501) KOBAYASHI Satoshi Shimane University, General Information Processing Center, 総合情報処理センター, 助教授 (90314096) UTURO Takehito Kyoto University, Graduate School of Informatics, 情報学研究科, 講師 (90263433)
Project Period (FY)	2001 – 2004
Project Status	Completed (Fiscal Year 2004)
Budget Amount *help	¥14,800,000 (Direct Cost: ¥14,800,000) Fiscal Year 2004: ¥4,000,000 (Direct Cost: ¥4,000,000) Fiscal Year 2003: ¥3,700,000 (Direct Cost: ¥3,700,000) Fiscal Year 2002: ¥2,900,000 (Direct Cost: ¥2,900,000) Fiscal Year 2001: ¥4,200,000 (Direct Cost: ¥4,200,000)
Keywords	Speech Database / Speech Recognition / Spoken Language / Speech Summarization / Speech Retrieval / Question-Answering / Dictation / Spoken Dialogue / デコーダ / 質問応答システム / 対話システム / 情報検索 / ニュース音声 / 移植性 / キーワード
Research Abstract	To develop an accurate large vocabulary continuous speech recognition system for spoken document retrieval in open domain, we proposed a search method using two search algorithms in parallel to achieve efficient and accurate decoding. We evaluated this new search algorithm and obtained significant improvement of recognition performance without severe increase of computational cost We also proposed to apply machine learning techniques to the task of combining outputs of multiple LVCSR models. The proposed technique had advantages over that by voting schemes such as ROVER, especially when the majority of participating models are not reliable. By using this technique, we performed a speech-driven Web retrieval task and improved speech recognition accuracy of spoken queries and then improved retrieval accuracy in speech driven Web retrieval We tried the summarization of spoken lectures. For this purpose, we investigated relations between linguistic surface information and human's results, and we obtained useful surface linguistic information. Next, we summarized spoken lectures based on this information, and compared them with human's results. As a result, we obtained a better F-measure and k-value comparable with human's results. We have developed a portable speech recognition module and an interpreter module in a spoken dialogue system. Furthermore, we also developed a dialogue strategy design tool, applied it to Mt.Fuji sightseeing guidance retrieval, literature retrieval and hotel reservation retrieval and then confirmed the usefulness.

Report

(5 results)

2004 Annual Research Report Final Research Report Summary
2003 Annual Research Report
2002 Annual Research Report
2001 Annual Research Report

Research Products
(28 results)

All 2005 2004 2003 Other

All Journal Article (14 results) Publications (14 results)

[Journal Article] An supervised speaker adaptation method for lecture-style spontaneous speech recognition using multiple recognition system2005
- Author(s)
  S.Nakagawa
- Journal Title
  
  Trans.Inst.Elect.Comm.Inform.Engrs. ED-88・3
- Description
  「研究成果報告書概要(和文)」より
- Related Report
  2004 Annual Research Report 2004 Final Research Report Summary
[Journal Article] Improving key word recognition of spoken queries by combining multiple speech recognizer's outputs for speech-driven WEB retrieval task2005
- Author(s)
  M.Matushita
- Journal Title
  
  Trans.Inst.Elect.Comm.Inform.Engrs. ED-88・3
- Description
  「研究成果報告書概要(和文)」より
- Related Report
  2004 Annual Research Report 2004 Final Research Report Summary
[Journal Article] An supervised speaker adaptation method for lecture style spontaneous speech recognition using multiple recognition system.2005
- Author(s)
  Seiichi Nakagawa
- Journal Title
  
  Trans.Inst.Elect.Comm.Inform.Engrs. ED-88・3
- Description
  「研究成果報告書概要(欧文)」より
- Related Report
  2004 Final Research Report Summary
[Journal Article] Improving keyword recognition of spoken queries by combing multiple speech recognizer's outputs for speech-driven WEB retrieval task.2005
- Author(s)
  M.Matushita
- Journal Title
  
  Trans.Inst.Elect.Comm.Inform.Engrs. ED-88・3
- Description
  「研究成果報告書概要(欧文)」より
- Related Report
  2004 Final Research Report Summary
[Journal Article] 1-best近似木構造辞書探索と線形辞書探索の併用による大語彙連続音声認識2004
- Author(s)
  北岡教英
- Journal Title
  
  電子情報通信学会論文誌 87-DII・3
  
  Pages: 799-807
- Description
  「研究成果報告書概要(和文)」より
- Related Report
  2004 Final Research Report Summary
[Journal Article] 機械学習を用いた複数の大語彙連続音声認識モデルの出力の混合2004
- Author(s)
  宇津呂武仁
- Journal Title
  
  電子情報通信学会論文誌 87-DII・7
  
  Pages: 1428-1440
- NAID
  110003171132
- Description
  「研究成果報告書概要(和文)」より
- Related Report
  2004 Annual Research Report 2004 Final Research Report Summary
[Journal Article] 音声対話システムの誤認識に対するユーザの繰り返し発話の検出と認識2004
- Author(s)
  北岡教英
- Journal Title
  
  電子情報通信学会論文誌 87-DII・7
  
  Pages: 1441-1450
- Description
  「研究成果報告書概要(和文)」より
- Related Report
  2004 Annual Research Report 2004 Final Research Report Summary
[Journal Article] Large vocabulary continuous speech recognition using linear lexicons search with N-best approximation and tree lexicon search with 1-best approximation.2004
- Author(s)
  Norihide Kitaoka
- Journal Title
  
  Trans.Inst.Elect.Comm.Inform.(in Japanese) 87-D II・3
  
  Pages: 799-807
- NAID
  110003171066
- Description
  「研究成果報告書概要(欧文)」より
- Related Report
  2004 Final Research Report Summary
[Journal Article] Combing outputs of multiple LVSCR models by machine learning.2004
- Author(s)
  Takehito Utsuro
- Journal Title
  
  Trans.Inst.Elect.Comm.Inform.(in Japanese) 87-D II・7
  
  Pages: 1428-1440
- Description
  「研究成果報告書概要(欧文)」より
- Related Report
  2004 Final Research Report Summary
[Journal Article] Detection and recognition of correction Utterances on miss-recognition of spoken dialog system.2004
- Author(s)
  Norihide Kitaoka
- Journal Title
  
  Trans.Inst.Elect.Comm.Inform. 87-D II・7
  
  Pages: 1441-1450
- Description
  「研究成果報告書概要(欧文)」より
- Related Report
  2004 Final Research Report Summary
[Journal Article] 1-best近似木構造辞書探索と線形辞書探索の併用による大語彙連続音声認識2004
- Author(s)
  北岡教英
- Journal Title
  
  電子情報通信学会論文誌 87-DII 3
  
  Pages: 799-807
- Related Report
  2004 Annual Research Report
[Journal Article] 音声認識誤りと未知語に頑健な音声文書検索手法2003
- Author(s)
  西崎博光
- Journal Title
  
  電子情報通信学会論文誌 86-DII・10
  
  Pages: 1369-1381
- Description
  「研究成果報告書概要(和文)」より
- Related Report
  2004 Annual Research Report 2004 Final Research Report Summary
[Journal Article] Continuous speech recognition using an one-line speaker adaptation method based on automatic speaker clustering2003
- Author(s)
  Wei Zhang, Seiichi Nakagawa
- Journal Title
  
  Trans.Inst.Elect.Comm.Inform. ED-86, 3
  
  Pages: 464-473
- Description
  「研究成果報告書概要(欧文)」より
- Related Report
  2004 Final Research Report Summary
[Journal Article] Robust spoken documents retrieval methods for miss-recognition and out-of-vocabulary keywords.2003
- Author(s)
  Hiromitu Nishizaki
- Journal Title
  
  Trans.Inst.Elect.Comm.Inform.(in Japanese) 86-D II・10
  
  Pages: 1369-1381
- Description
  「研究成果報告書概要(欧文)」より
- Related Report
  2004 Final Research Report Summary
[Publications] 宇津呂武仁: "複数の大語彙連続音声認識モデルの出力の共通部分を用いた高信頼度部分の推定"電子情報通信学会論文誌. 86-DII, 7. 974-987 (2003)
- Related Report
  2003 Annual Research Report
[Publications] 西崎博光: "音声認識誤りと未知語に頑健な音声文書検索手法"電子情報通信学会論文誌. 86-DII, 10. 1369-1381 (2003)
- Related Report
  2003 Annual Research Report
[Publications] 北岡教英: "N-best線形辞書検索と1-best近似木構造辞書探索の併用による大語彙連続音声認識"電子情報通信学会論文誌. 87-DII, 3. 799-807 (2004)
- Related Report
  2003 Annual Research Report
[Publications] Kiyomori Ohtake: "Newscast speech summarization via sentence shortening based on prosodic features"Proc.Workshop on Spontaneous Speech Processing and Recognition. 167-170 (2003)
- Related Report
  2003 Annual Research Report
[Publications] Satoshi Kobayashi: "Extracting summarizing of lectures based on linguistic surface and prosodic information"Proc.Workshop on Spontaneous Speech Processing and recognition. 211-214 (2003)
- Related Report
  2003 Annual Research Report
[Publications] Masamitsu Umeda: "Interpreter for highly portable spoken dialogue system"Proc.4-th Sigdial Workshop on discourse and Dialogue. 105-114 (2003)
- Related Report
  2003 Annual Research Report
[Publications] H.Nishizaki, S.Nakagawa: "Comparing Isolately Spoken Keywords with Spontaneously Spoken Queries for Japanese Spoken Document Retrieval"Proc. of ICSLP2002. 1505-1508 (2002)
- Related Report
  2002 Annual Research Report
[Publications] T.Utsuro, T.Harada, H.Nishizaki, S.Nakagawa: "A Confidence Measure Based on Agreement among Multiple LVCSR Models --Correlation between Pair of Acoustic Models and Confidence --"Proc. of ICSLP2002. 701-704 (2002)
- Related Report
  2002 Annual Research Report
[Publications] 小玉康広, 渡邊友裕, 宇津呂武仁, 西崎博光, 中川聖一: "機械学習を用いた複数の大語彙連続音声認識モデルの出力の混合"情報処理学会音声言語情報処理学会研究会. SLP45-16. 95-100 (2003)
- Related Report
  2002 Annual Research Report
[Publications] 西崎博光, 中川聖一: "音声文書検索の性能推定のモデル化とシュミレーションによる検討"電子情報通信学会音声研究会技術報告. SP-147. 159-164 (2002)
- Related Report
  2002 Annual Research Report
[Publications] 宇津呂武仁, 原田哲志, 渡邊友裕, 西崎博光, 中川聖一: "複数の大語彙連続音声認識モデルの出力の共通部分を用いた信頼度--信頼度を利用した複数モデルの出力の混合--"電子情報通信学会音声研究会技術報告. SP-22. 25-30 (2002)
- Related Report
  2002 Annual Research Report
[Publications] 西崎博光, 中川聖一: "文音声によるクエリーを用いた音声文書検索システムの試作"情報処理学会音声言語情報処理研究会. SLP-41. 25-30 (2002)
- Related Report
  2002 Annual Research Report
[Publications] 西崎博光, 中川聖一: "音声キーワードによるニュース音声データベース検索手法"情報処理学会論文誌. 42・12. 3173-3184 (2001)
- Related Report
  2001 Annual Research Report
[Publications] 小暮悟, 中川聖一: "データベース検索用音声対話システムにおける移植性の高い意味理解部・検索部の構築と評価"情報処理学会論文誌. 43・2. 714-733 (2002)
- Related Report
  2001 Annual Research Report

A study on content summarization for large spoken documents and content retrieval through spoken dialogue

Principal Investigator

NAKAGAWA Seiichi Toyohashi University of Technology, Department of Information and Computer Sciences, 工学部, 教授 (20115893)

¥14,800,000 (Direct Cost: ¥14,800,000)

Report

Research Products

[Journal Article] An supervised speaker adaptation method for lecture-style spontaneous speech recognition using multiple recognition system2005

Author(s)

Journal Title

Description

Related Report

[Journal Article] Improving key word recognition of spoken queries by combining multiple speech recognizer's outputs for speech-driven WEB retrieval task2005

Author(s)

Journal Title

Description

Related Report

[Journal Article] An supervised speaker adaptation method for lecture style spontaneous speech recognition using multiple recognition system.2005

Author(s)

Journal Title

Description

Related Report

[Journal Article] Improving keyword recognition of spoken queries by combing multiple speech recognizer's outputs for speech-driven WEB retrieval task.2005

Author(s)

Journal Title

Description

Related Report

[Journal Article] 1-best近似木構造辞書探索と線形辞書探索の併用による大語彙連続音声認識2004

Author(s)

Journal Title

Description

Related Report

[Journal Article] 機械学習を用いた複数の大語彙連続音声認識モデルの出力の混合2004

Author(s)

Journal Title

NAID

Description

Related Report

[Journal Article] 音声対話システムの誤認識に対するユーザの繰り返し発話の検出と認識2004

Author(s)

Journal Title

Description

Related Report

[Journal Article] Large vocabulary continuous speech recognition using linear lexicons search with N-best approximation and tree lexicon search with 1-best approximation.2004

Author(s)

Journal Title

NAID

Description

Related Report

[Journal Article] Combing outputs of multiple LVSCR models by machine learning.2004

Author(s)

Journal Title

Description

Related Report

[Journal Article] Detection and recognition of correction Utterances on miss-recognition of spoken dialog system.2004

Author(s)

Journal Title

Description

Related Report

[Journal Article] 1-best近似木構造辞書探索と線形辞書探索の併用による大語彙連続音声認識2004

Author(s)

Journal Title

Related Report

[Journal Article] 音声認識誤りと未知語に頑健な音声文書検索手法2003

Author(s)

Journal Title

Description

Related Report

[Journal Article] Continuous speech recognition using an one-line speaker adaptation method based on automatic speaker clustering2003

Author(s)

Journal Title

Description

Related Report

[Journal Article] Robust spoken documents retrieval methods for miss-recognition and out-of-vocabulary keywords.2003

Author(s)

Journal Title

Description

Related Report

[Publications] 宇津呂武仁: "複数の大語彙連続音声認識モデルの出力の共通部分を用いた高信頼度部分の推定"電子情報通信学会論文誌. 86-DII, 7. 974-987 (2003)

Related Report

[Publications] 西崎博光: "音声認識誤りと未知語に頑健な音声文書検索手法"電子情報通信学会論文誌. 86-DII, 10. 1369-1381 (2003)

[Publications] 西崎博光, 中川聖一: "音声キーワードによるニュース音声データベース検索手法"情報処理学会論文誌. 42・12. 3173-3184 (2001)

[Publications] 小暮悟, 中川聖一: "データベース検索用音声対話システムにおける移植性の高い意味理解部・検索部の構築と評価"情報処理学会論文誌. 43・2. 714-733 (2002)