1996 Fiscal Year Annual Research Report
Project/Area Number |
08680399
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
鹿野 清宏 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (00263426)
|
Co-Investigator(Kenkyū-buntansha) |
中村 哲 奈良先端科学技術大学院大学, 情報科学研究科, 助教授 (30263429)
|
Keywords | 音声認識 / 統計的言語モデル / ディクテーションシステム / 音声データベース |
Research Abstract |
情報処理学会の大語彙連続研究用データベースWGの討議に基づき、WGのメンバーとの協同作業により、以下のWGの活動を行なった。 ・91年〜94年の毎日新聞の記事を対象にすることにし、91年〜94年9月までを言語モデルの学習用に、94年10月〜12月までを文データの収録用にした。 ・表、スコアなど文として不適切なものを除く基準を定め、また、カッコなどの取り扱いの基準も定め、文の選択基準を決定した。 ・5千語、2万語の辞書およびバイグラム言語モデルを作成し、文の複雑度(パ-プレキシティ)の計算を可能にした。 ・WGメンバーで、読み、形態素解析などのチェックを行ない、パ-プレキシティおよび未知語の数を基準とした収録文セットを作成した。現在、音響学会の音声データベース委員会のメンバーで音声データの収録中であり、約5万文の音声データの収録が3月末には終了する予定である。 WGの活動の一環として、音響モデル、言語モデルに関する以下の研究を研究室独自に行なった。 ・大量の音声データから標準的な不特定話者用HMM音韻モデルの作成を行なった。 ・高速な認識処理が可能なTied Mixture HMMでの最尤分割原理に基づく音韻HMM作成アルゴリズムの研究を行ない、特定話者音韻認識で評価を行ない、アルゴリズムの有効性を示した。 ・日本語形態素解析ツールのChaSenを用いて、新聞記事の形態素付与の研究を開始した。
|
-
[Publications] 武田 一哉: "大語彙連続音声認識研究のためのテキストデータの整備" 情報処理学会音声言語情報処理研究会. 96-SLP-11-9. (1996)
-
[Publications] 鹿野 清宏: "統計的言語処理/音声言語処理における大規模言語データベースの利用" 情報処理学会音声言語情報処理研究会. 96-SLP-11-10. (1996)
-
[Publications] 伊藤 克亘: "大語彙連続音声認識研究のためのテキストデータ処理" 日本音響学会研究発表講演論文集. 3-3-10. 105-106 (1996)
-
[Publications] 伊藤 克亘: "大語彙連続音声認識のための読み上げ文コーパスの構築" 情報処理学会全国大会. 2-225. (1997)
-
[Publications] 伊藤 克亘: "大語彙連続音声認識のための読み上げ文の選択" 日本音響学会研究発表講演論文集. 2-Q-7. (1997)
-
[Publications] Alexandve Girardi: "Maximum likelihood successive state splitting algorithm for tied mixutre HMnet" 日本音響学会研究発表講演論文集. 3-6-1. (1997)
-
[Publications] 北 研二: "音声言語処理-コーパスに基づくアプローチ" 森北出版, 169 (1996)
-
[Publications] 小林 哲則: "音声データベース,人文学と情報処理" 勉誠社, 129 (1996)