2001 Fiscal Year Annual Research Report
講義ビデオのハイパーメディア化と内容記述によるマルチメディア教材の研究
Project/Area Number |
11480081
|
Research Institution | Ryukoku University |
Principal Investigator |
有木 康雄 龍谷大学, 理工学部・電子情報学科, 教授 (10135519)
|
Co-Investigator(Kenkyū-buntansha) |
熊野 雅仁 龍谷大学, 理工学部・電子情報学科, 実験助手 (50319498)
川上 肇 龍谷大学, 理工学部・電子情報学科, 講師 (60298734)
小淵 洋一 龍谷大学, 理工学部・電子情報学科, 教授 (60025450)
|
Keywords | ディジタルアーカイブ / ハイパーリンク / 音声ディクテーション / 映像要約 / 信頼度 / 内容記述 / 類似映像 / テロップ |
Research Abstract |
平成13年度は、12年度の成果を発展させ,ディジタル化されたビデオ教材から,目次を作成するとともに、要約を作成することを目標として研究を行った.講義音声と同時に,テレビで放映されているニュース映像に対しても,構造化の研究を行った. 1.話者適応による講義音声の高精度な音声ディクテーション 1.講義音声は自由発話に近く,認識精度を向上させるには,発話様式と発話者に音響モデルを適応させる必要がある、本年度は,高精度な音声認識を目指して,音響モデルの教師無し適応を行った.教師無し適応では、予備的に音声認識された結果得られる音素を教師信号として,MLLR-MAPを使って適応させる.このため,次の2点の処理が重要である. a.音素認識率の向上:音素誤り最小化デコーディングを新たに提案し,音声認識においてその有効性を示すとともに,教師無し適応においても有効であることを示した. b.音素信頼度の設定:認識が確かではない音素を用いると適応結果が劣化する.そのため,認識結果が確かな音素のみを取り出すために,音素信頼度を設定し,音響モデルを適応させた. この2つの処理を導入することにより,適応後の単語認識率が10%程度向上した. 2.話題分割による講義音声の目次作成と要約 講義音声をいくつかの話題に自動分割する方法を研究した.その話題が相互に参照している状態を把握して目次を作成した.講義音声に対するテキストが既に入手できている場合には,90%の精度で音声とテキストとの対応付けを行うことができた.また,分割された話題ごとに,重要な単語が多く出現している箇所を重要箇所として取り出すことで,要約する方法を提案した.しかし,テキストが入手できない場合には、講義音声のトピックセグメンテーションは,きわめて難しい状態にあることも分かった.
|
Research Products
(12 results)
-
[Publications] 藤本雅清, 有木康雄: "カルマンフィルタに基づく音声信号推定法を用いた雑音環境下での音声認識"電子情報通信学会論文誌. Vol.85-D-II, No.1. 1-11 (2002)
-
[Publications] 緒方淳, 有木康雄: "大語彙連続音声認識における最ゆう単語back-off接続を用いた効率的なN-best探索法"電子情報通信学会論文誌. Vol.84-D-II, No.12. 2489-2500 (2001)
-
[Publications] 鷹尾誠一, 有木康雄, 緒方淳: "クロスメディア・パッセージ検索-テロップやCGフリップ文字列を検索質問とした発話文書に対する検索方式-"電子情報通信学会論文誌. Vol.84-D-II, No.8. 1809-1816 (2001)
-
[Publications] S.Takao, Y.Ariki, H.Matsumoto: "Segmentation of Goods Catalog Video Based on Video Caption"Proc. of ACM Multimedia 2001 Workshops, Multimedia Information Retrieval. 56-59 (2001)
-
[Publications] J.Ogata, Y.Ariki: "Improved Speech Recognition Using Iterative Decoding Based on Confidence Measures"EuroSpeech'2001. Vol.IV. 2577-2580 (2001)
-
[Publications] M.Fujimoto, Y.Ariki: "Speech Recognition under Musical Environments Using Kalman Filter and Iterative MLLR Adaptation"EuroSpeech'2001. Vol.III. 1879-1882 (2001)
-
[Publications] Sejichi TAKAO, Takaaki HARU, Yasno ARIKI: "Summarization of News Speech with Unknown Topic Boundary"CD-ROM Proceedings of ICME2001 (International Conference on Multimedia and Expo). 23-25 (2001)
-
[Publications] M.Fujimoto, Y.Ariki: "Continuous Speech Recognition under Non-stationary Musical Environments Based on Speech State Transition Model"Proc. of IEEE Int'l Conf. on Acoustics, Speech and Signal Processing (ICASSP'01). SPEECH-P15.3,Vol.I. 297-300 (2001)
-
[Publications] 西田昌史, 有木康雄: "音韻性を抑えた話者空間への射影による話者認識"電子情報通信学会論文誌. Vol.D-II. (2002)
-
[Publications] M.Nishida, Y.Ariki: "Speaker Recognition by Separating Phonetic Space and Speaker Space"EuroSpeech'2001. Vol.II. 1381-1384 (2001)
-
[Publications] S.Sakamoto, S.Seki, Y.Kobuchi: "Normalization Processes and Topographic Mapping Model Between Cell Layers Represented by Undirected Graphs"Journal of Japan Society for Fuzzy Theory and Systems. Vol.14,No1. 43-54 (2002)
-
[Publications] 黒江 康明, 吉崎 好彦, 川上 肇, 森 武宏: "画像生成モデルを内包した学習による陰影画像からの形状復元問題の汎用性のある解法"計測自動制御学会論文集. Vol.37,No.7. 665-674 (2001)