2014 Fiscal Year Annual Research Report

音声処理技術と言語処理技術を活用した電子ノート作成支援システムの研究

Research Project

Project/Area Number	26282049
Research Institution	University of Yamanashi
Principal Investigator	西崎博光山梨大学, 総合研究部, 助教 (40362082)
Co-Investigator(Kenkyū-buntansha)	秋葉友良豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (00356346) 北岡教英徳島大学, ソシオテクノサイエンス研究部, 教授 (10333501) 中川聖一豊橋技術科学大学, リーディング大学院教育推進機構, 特任教授 (20115893) 宇津呂武仁筑波大学, システム情報工学研究科(系), 教授 (90263433)
Project Period (FY)	2014-04-01 – 2017-03-31
Keywords	電子ノート / 音声認識 / 学習支援 / 音声インタフェース / 音声ドキュメント検索 / 講義音声
Outline of Annual Research Achievements	本研究では，授業で利用するための電子ノート作成支援システムを開発し，これによるノート作成補助および電子ノートコンテンツをeラーニング教材に利用したときの学習効果を実証することを目的としている．具体的な研究項目は，１．講師の話の聞き逃しを防ぐための，音声・映像（静止画）を包括的に記録できる電子ノート作成支援システムを開発する，２．授業音声の記録ならびに作成したノートコンテンツを有効利用するための音声処理・言語処理基盤技術を開発する，３．eラーニング支援として本システムの学習効果を実証実験で明らかにする，の3点である．これらの研究項目のうち，2014年度は１．および２．について取り組んだ．まず１．に関連して電子ノート作成支援システムのプロトタイプを構築した．これは，講師音声の録音や，スクリーン・黒板板書をキャプチャ画像（と動画）で記録できる機能を持つ．また，音声認識結果を字幕のように提示させ，そこからメモに利用できる単語をドラッグ操作で選択することにより簡単にメモが記録できるユーザインタフェースを備えている．これにより，受講生のノート作成にかかる時間を短縮し講師の話を聞き逃すことを防いだり，授業内容を咀嚼する余裕を作り出したりすることができ，学習効果の改善が期待できる．しかし，音声認識性能が悪いと学習効果が低下することが危惧される．また，録音（録画）されたデータを効率よく頭出しする技術があれば効率良く復習することが可能となる．そこで，２．の項目において，音声処理の高度化について取り組んだ．具体的には，新しい機械学習の枠組みを用いた音声の残響・雑音対策ならびに音声認識手法開発，指定したキーワードが授業音声のどこに位置しているのかを検出する技術の開発を行った．これらの技術は電子ノートシステムのユーザインタフェースやこれを用いた学習効果を高めるために必要不可欠である．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 概ね順調に進展している．その理由は，実際に授業と連動して動作する電子ノート作成支援システムのプロトタイプを製作できたこと，音声・言語処理技術の基盤技術として，音声認識率の改善，キーワード検出性能の改善が見られたことにある．まず，電子ノート作成支援システムの開発では，音声と画像を包括的に取り組んだノートシステムのプロトタイプシステムが完成した．このシステムでは，音声の録音，スライド投影や黒板板書の録画機能を備え，録音された音声を即座に音声認識し，字幕のように受講者のノート作成端末に提示するのが特徴である．このシステムを模擬授業ではあるが，授業音声と板書を包括的に電子ノートに記録できることを確認した．プロトタイプシステムの動作確認後は，手書きノートシステムとして有効性が実証されている「コーネル式ノート」を参考にして，ユーザインタフェースの改良に取り組んだ．これに加えて，複数の受講者が作成した電子ノートの共有機能の実装も進めている段階である．電子ノートシステムで利用する音声・言語処理技術の基盤技術の開発においては，最新の機械学習理論（深層学習）を取り入れた技術を開発した．これにより，音声認識性能の改善や，指定したキーワードが音声中のどこに位置しているのかを見つけ出す技術である「音声中の検索語検出」の性能を大きく改善させることに成功した．これらの技術は実際の授業では効果を測定していないが，評価音声データにおいて個々の技術の有効性を示すことができた．これらの成果については，学術学会において口頭発表を行っている．また，2014年度の研究成果を査読付きの国際会議や国内外の学術論文誌へ投稿する準備を進めている．
Strategy for Future Research Activity	2015年度は，2014年度の研究内容を継続して行う．具体的には，１．講師の話の聞き逃しを防ぐための，音声・映像（静止画）を包括的に記録できる電子ノート作成支援システムの改良，ならびに２．授業音声の記録ならびに作成したノートコンテンツを有効利用するための音声処理・言語処理基盤技術の開発と高度化を行う．１．については，2014年度に完成した電子ノート作成支援システムのプロトタイプシステムを改良する．2014年度の末期に，このプロトタイプシステムについてユーザインタフェースの評価を中心とした被験者実験を行ったところ，インタフェースの使い勝手にやや問題が残る結果となった．問題点とは，音声認識精度が低いこと，メモとして記録する文字の配置やメモの移動（これは電子化のメリットでもある）の操作がしづらいということであった．被験者実験により得られた問題点，被験者からの意見を参考にして，より良いインタフェースを実現するための改良を実施していく予定である．２．については，2014年度に開発した基盤技術（音声認識，雑音処理，音声中の検索語検出技術，音声ドキュメント検索技術）を改良し，より高度化していく予定である．また，新しい基盤技術の開発も行う．例えば，授業音声の認識率をより高めるためには，授業単元ごとの音声認識モデルの準備が必要となる．これを人間（講師）が「ほんの少しだけ」介在することで，半自動で高精度な音声認識を実現する方法・インタフェースを開発する．このように電子ノートシステムでは必要不可欠な「新しい」技術を開発していく予定である．2015年度後半から2016年度前半にかけて，各基盤技術を電子ノート作成支援システムに実装することを目標としている．
Causes of Carryover	2014年度は，世界的なハードウェア価格の高騰したため，効率良くかつ有効に予算を消化するために予定していた計算機などのハードウェアの購入を控えていた．幸いなことに，2014年度は想定していた以上の研究成果が出たため国際会議への出席が増えたこともあり，予定していた物品の購入を控え，研究成果の発表に集中的に投資した．その結果，若干の繰越金が発生した．
Expenditure Plan for Carryover Budget	2014年度下半期よりハードウェアの価格の下落が見られたため，2014年度と比べてより安価にハードウェアの調達が見込める．そこで，2014年度の繰越金と2015年度の予算を合わせて，高性能な計算機を2015年度の早い段階で購入する予定にしている．本研究で研究に取り組む予定の音声・言語処理基盤技術開発では，最新の機械学習理論を導入する．これには非常に複雑な計算が必要であり，さまざまなパラメータなどの計算を行おうとすると計算時間が膨大に必要である．研究を効率化するためにも，汎用目的グラフィカル演算処理装置を備えた計算機の導入が不可避である．幸いにも繰越金を利用することで，ワンランク高い計算機を導入できる見込みを得られた．これにより，基盤技術開発をより高めることが可能となる．

Research Products
(27 results)

All 2015 2014 Other

All Journal Article (13 results) (of which Peer Reviewed: 9 results, Open Access: 10 results, Acknowledgement Compliant: 2 results) Presentation (13 results) Remarks (1 results)

[Journal Article] Input Support System for Medical Records Created Using a Voice Memo Recorded by a Mobile Device2014
- Author(s)
  Keisuke Kurumizawa, Hiromitsu Nishizaki, Kanae Nishizaki, Hitoshi Ikegami
- Journal Title
  
  International Journal of Signal Processing Systems
  
  Volume: 3 Pages: 128-133
- DOI
  10.12720/ijsps.3.2.128-133
- Peer Reviewed / Open Access
[Journal Article] Fast Separation and Accurate Recognition of Overlapped Speech -- Separation by Spectral Subtraction and Acoustic Model Training using Separated Speeches--2014
- Author(s)
  Yuto Dekiura, Tetsuya Matsumoto, Yoshinori Takeuchi, Hiroaki Kudo,Noboru Onishi, Norihide Kitaoka, Kazuya Takeda
- Journal Title
  
  Proceedings of the 2015 RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing
  
  Volume: 1 Pages: 1-4
- Peer Reviewed
[Journal Article] Overview of the NTCIR-11 SpokenQuery & Doc Task2014
- Author(s)
  Tomoyosi Akiba, Hiromitsu Nishizaki, Hiroaki Nanjo, Gareth J. F. Jones
- Journal Title
  
  Proceedings of the 11th NTCIR Conference
  
  Volume: 1 Pages: 350-64
- Open Access
[Journal Article] Combination of DTW-based and CRF-based Spoken Term Detection on the NTCIR-11 SpokenQuery&Doc SQ-STD Subtask2014
- Author(s)
  Hiromitsu Nishizaki, Naoki Sawada, Satoshi Natori, Kentaro Domoto, Takehito Utsuro
- Journal Title
  
  Proceedings of the 11th NTCIR Conference
  
  Volume: 1 Pages: 402-408
- Open Access / Acknowledgement Compliant
[Journal Article] STD Score Combination with Acoustic Likelihood and Robust SCR Models for False Positives: Experiments at NTCIR-11 SpokenQuery&Doc2014
- Author(s)
  Yusuke Takada, Sho Kawasaki, Hiroshi Oshima, Hiroshi Kawatani and Tomoyoshi Akiba
- Journal Title
  
  Proceedings of the 11th NTCIR Conference
  
  Volume: 1 Pages: 425-428
- Open Access
[Journal Article] Spoken term detection based on a syllable Ngram index at the NTCIR-11 Spoken Query & Doc task2014
- Author(s)
  Nagisa Sakamoto, Kazumasa Yamamoto, Seiichi Nakagawa
- Journal Title
  
  Proceedings of the 11th NTCIR Conference
  
  Volume: 1 Pages: 419-424
- Open Access
[Journal Article] Noisy speech recognition using blind spatial subtraction array technique and deep bottleneck features2014
- Author(s)
  Norihide Kitaoka, Tomoki Hayashi, Kazuya Takeda
- Journal Title
  
  Proceedings of the 6th Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2014
  
  Volume: 1 Pages: 1-5
- DOI
  10.1109/APSIPA.2014.7041556
- Peer Reviewed / Open Access
[Journal Article] Re-Ranking of Spoken Term Detections Using CRF-based Triphone Detection Models2014
- Author(s)
  Naoki Sawada, Satoshi Natori, Hiromitsu Nishizaki
- Journal Title
  
  Proceedings of the 6th Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2014
  
  Volume: 1 Pages: 1-4
- DOI
  10.1109/APSIPA.2014.7041550
- Peer Reviewed / Open Access
[Journal Article] Selection of Best Match Keyword Using Spoken Term Detection for Spoken Document Indexing2014
- Author(s)
  Kentaro Domoto, Takehito Utsuro, Naoki Sawada, Hiromitsu Nishizaki
- Journal Title
  
  Proceedings of the 6th Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2014
  
  Volume: 1 Pages: 1-8
- DOI
  10.1109/APSIPA.2014.7041589
- Peer Reviewed / Open Access / Acknowledgement Compliant
[Journal Article] Elimination of person names in spoken documents for privacy protection2014
- Author(s)
  Ryo Kawaguchi, Masatoshi Tsuchiya, Seiichi Nakagawa
- Journal Title
  
  Proceedings of the 6th Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2014
  
  Volume: 1 Pages: 1-4
- DOI
  10.1109/APSIPA.2014.7041603
- Peer Reviewed / Open Access
[Journal Article] Robust Retrieval Models for False Positive Errors in Spoken Documents2014
- Author(s)
  Sho Kawasaki, Tomoyosi Akiba
- Journal Title
  
  Proceedings of the 15th International Conference on Speech Communication and Technology
  
  Volume: 1 Pages: 1757-1761
- Peer Reviewed
[Journal Article] Comparison of syllable-based and phoneme-based DNN-HMM in Japanese speech recognition2014
- Author(s)
  Hiroshi Seki, Kazumasa Yamamoto, Seiichi Nakagawa
- Journal Title
  
  Proceedings of the 2014 International Conference of Advanced Informatics: Concept, Theory and Application
  
  Volume: 1 Pages: 249-245
- DOI
  10.1109/ICAICTA.2014.7005949
- Peer Reviewed
[Journal Article] Single-channel dereverberation by feature mapping using cascade neural networks for robust distant speaker identification and speech recognition2014
- Author(s)
  Aditya Arie Nugraha, Kazumasa Yamamoto, Seiichi Nakagawa
- Journal Title
  
  EURASIP Journal on Audio, Speech, and Music Processing
  
  Volume: 2014 Pages: 1-31
- DOI
  doi:10.1186/1687-4722-2014-13
- Peer Reviewed / Open Access
[Presentation] 複数のAndroid端末を用いた議事録作成支援システムの試作2015
- Author(s)
  清水陽平，西崎博光
- Organizer
  日本音響学会2015年春季研究発表会
- Place of Presentation
  中央大学（東京都・文京区）
- Year and Date
  2015-03-16 – 2015-03-18
[Presentation] 2つの手法を組み合わせたSTDにおけるクエリの特徴分類別性能調査と考察2015
- Author(s)
  澤田直輝，名取賢，西崎博光
- Organizer
  日本音響学会2015年春季研究発表会
- Place of Presentation
  中央大学（東京都・文京区）
- Year and Date
  2015-03-16 – 2015-03-18
[Presentation] 音声認識結果から生成した補助的キーワード集合を利用する最良照合STD2015
- Author(s)
  堂元健太郎，宇津呂武仁，澤田直輝，西崎博光
- Organizer
  日本音響学会2015年春季研究発表会
- Place of Presentation
  中央大学（東京都・文京区）
- Year and Date
  2015-03-16 – 2015-03-18
[Presentation] 音節N-gramおよび単語検索を組み合わせた音声クエリによる音声検索語検出2015
- Author(s)
  坂本渚，山本一公，中川聖一
- Organizer
  日本音響学会2015年春季研究発表会
- Place of Presentation
  中央大学（東京都・文京区）
- Year and Date
  2015-03-16 – 2015-03-18
[Presentation] 年齢性別クラスタリング情報を考慮したDNN-HMMによる音声認識の検討2015
- Author(s)
  関博史，山本一公，中川聖一
- Organizer
  日本音響学会2015年春季研究発表会
- Place of Presentation
  中央大学（東京都・文京区）
- Year and Date
  2015-03-16 – 2015-03-18
[Presentation] 年齢、性別に依存しないＤＮＮ－ＨＭＭによる音声認識法の検討2014
- Author(s)
  関博史，山本一公，中川聖一
- Organizer
  第16回音声言語シンポジウム
- Place of Presentation
  東京工業大学（神奈川県・横浜市）
- Year and Date
  2014-12-15 – 2014-12-16
[Presentation] 最良照合STDによる音声ドキュメント索引付けの評価および分析2014
- Author(s)
  堂元健太郎，宇津呂武仁，澤田直輝，西崎博光
- Organizer
  日本音響学会2014年秋季研究発表会
- Place of Presentation
  北海学園大学（北海道・札幌市）
- Year and Date
  2014-09-03 – 2014-09-05
[Presentation] 携帯端末で録音された音声メモを用いた診療記録作成支援システムの開発2014
- Author(s)
  胡桃澤圭佑，西崎博光，西崎香苗，池上仁志
- Organizer
  日本音響学会2014年秋季研究発表会
- Place of Presentation
  北海学園大学（北海道・札幌市）
- Year and Date
  2014-09-03 – 2014-09-05
[Presentation] 自由発声した情報要求に含まれるキーワードの音響・言語的特長の調査2014
- Author(s)
  大島翔, 秋葉友良
- Organizer
  日本音響学会2014年秋季研究発表会
- Place of Presentation
  北海学園大学（北海道・札幌市）
- Year and Date
  2014-09-03 – 2014-09-05
[Presentation] 音響尤度と音節列間距離の組み合わせに基づくSpoken Term Detection の精度向上2014
- Author(s)
  高田優介, 秋葉友良
- Organizer
  日本音響学会2014年秋季研究発表会
- Place of Presentation
  北海学園大学（北海道・札幌市）
- Year and Date
  2014-09-03 – 2014-09-05
[Presentation] 音節N-gramを用いた音声検索語検出におけるマッチング距離尺度の検討2014
- Author(s)
  坂本渚，山本一公，中川聖一
- Organizer
  日本音響学会2014年秋季研究発表会
- Place of Presentation
  北海学園大学（北海道・札幌市）
- Year and Date
  2014-09-03 – 2014-09-05
[Presentation] 同時発話の高性能な音声認識　～スペクトル減算による分離の高速化と分離音を用いた音響モデル学習～2014
- Author(s)
  出木浦悠人, 松本哲也, 竹内義則, 工藤博章, 大西昇, 北岡教英, 武田一哉
- Organizer
  電子情報通信学会音声研究会
- Place of Presentation
  近江町交流プラザ（石川県・金沢市）
- Year and Date
  2014-06-20 – 2014-06-20
[Presentation] 音声言語処理のための要素技術と音声ドキュメント処理への応用2014
- Author(s)
  西崎博光
- Organizer
  電子情報通信学会マルチメディア情報ハイディング・エンリッチメント研究会
- Place of Presentation
  東京理科大学（東京都・葛飾区）
- Year and Date
  2014-05-15 – 2014-05-16
[Remarks] 聞き耳インタフェース
- URL
  http://www.alps-lab.org/kikimimi/

2014 Fiscal Year Annual Research Report

音声処理技術と言語処理技術を活用した電子ノート作成支援システムの研究

Principal Investigator

西崎 博光 山梨大学, 総合研究部, 助教 (40362082)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Input Support System for Medical Records Created Using a Voice Memo Recorded by a Mobile Device2014

Author(s)

Journal Title

DOI

[Journal Article] Fast Separation and Accurate Recognition of Overlapped Speech -- Separation by Spectral Subtraction and Acoustic Model Training using Separated Speeches--2014

Author(s)

Journal Title

[Journal Article] Overview of the NTCIR-11 SpokenQuery & Doc Task2014

Author(s)

Journal Title

[Journal Article] Combination of DTW-based and CRF-based Spoken Term Detection on the NTCIR-11 SpokenQuery&Doc SQ-STD Subtask2014

Author(s)

Journal Title

[Journal Article] STD Score Combination with Acoustic Likelihood and Robust SCR Models for False Positives: Experiments at NTCIR-11 SpokenQuery&Doc2014

Author(s)

Journal Title

[Journal Article] Spoken term detection based on a syllable Ngram index at the NTCIR-11 Spoken Query & Doc task2014

Author(s)

Journal Title

[Journal Article] Noisy speech recognition using blind spatial subtraction array technique and deep bottleneck features2014

Author(s)

Journal Title

DOI

[Journal Article] Re-Ranking of Spoken Term Detections Using CRF-based Triphone Detection Models2014

Author(s)

Journal Title

DOI

[Journal Article] Selection of Best Match Keyword Using Spoken Term Detection for Spoken Document Indexing2014

Author(s)

Journal Title

DOI

[Journal Article] Elimination of person names in spoken documents for privacy protection2014

Author(s)

Journal Title

DOI

[Journal Article] Robust Retrieval Models for False Positive Errors in Spoken Documents2014

Author(s)

Journal Title

[Journal Article] Comparison of syllable-based and phoneme-based DNN-HMM in Japanese speech recognition2014

Author(s)

Journal Title

DOI

[Journal Article] Single-channel dereverberation by feature mapping using cascade neural networks for robust distant speaker identification and speech recognition2014

Author(s)

Journal Title

DOI

[Presentation] 複数のAndroid端末を用いた議事録作成支援システムの試作2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 2つの手法を組み合わせたSTDにおけるクエリの特徴分類別性能調査と考察2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 音声認識結果から生成した補助的キーワード集合を利用する最良照合STD2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 音節N-gramおよび単語検索を組み合わせた音声クエリによる音声検索語検出2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 年齢性別クラスタリング情報を考慮したDNN-HMMによる音声認識の検討2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 年齢、性別に依存しないＤＮＮ－ＨＭＭによる音声認識法の検討2014

Author(s)

西崎博光山梨大学, 総合研究部, 助教 (40362082)

[Presentation] 同時発話の高性能な音声認識　～スペクトル減算による分離の高速化と分離音を用いた音響モデル学習～2014