• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

混合ディリクレ分布を用いたトピックモデルによる統計的言語モデルの高度化とその応用

研究課題

研究課題/領域番号 17500105
研究種目

基盤研究(C)

配分区分補助金
応募区分一般
研究分野 知覚情報処理・知能ロボティクス
研究機関筑波大学

研究代表者

山本 幹雄  筑波大学, 大学院システム情報工学研究科, 助教授 (40210562)

研究期間 (年度) 2005 – 2006
研究課題ステータス 完了 (2006年度)
配分額 *注記
3,700千円 (直接経費: 3,700千円)
2006年度: 1,400千円 (直接経費: 1,400千円)
2005年度: 2,300千円 (直接経費: 2,300千円)
キーワード混合ディリクレ分布 / 統計的言語モデル / トピックモデル / ベイズ統計 / 音声認識 / 統計的機械翻訳 / 言語横断モデル / ベイズモデル
研究概要

代表的な統計的言語モデルであるngramモデルに、処理中の文書や文脈の話題・トピックに関する情報を取り込むことによつて性能を向上させる手法を提案・評価・応用することを目的として研究を行った。研究成果は以下である。
1.混合ディリクレ分布に関する階層ベイズモデルを利用した頑健なパラメータ推定手法を開発した。階層ベイズモデルは複雑な積分を近似的に数値計算する必要があるが、Reversing-EMと変分近似を用いた方法を開発し、様々なテキストデータを用い実験的に十分な性能改善ができることを示した。
2.大語彙連続音声認識システムに混合ディリクレモデルを適用・評価した。適用方法として、従来のトライグラムモデルにunigram rescaling法でトピックモデルを組み込む方法、および文書尤度を用いて文書全体で認識結果の最適化を図る方法を考案した。従来からよく知られているUnigram Mixtureモデルやマルチトピックモデルの代表であるLDA(Latent Dirichlet Allocation)よりも混合ディリクレモデルが認識率でよい性能であることが分かった。
3.機械翻訳システムとしては、フレーズベースの統計的機械翻訳システムを試作し、言語モデルにトピックモデルを組み込む方法を検討・評価した。組み込み方法としては、日英対訳記事を一つの文書と考えトピックモデルを学習した後、翻訳時に原言語側の文章のみからトピックを推定し、目的言語側に反映させる手法を用いた。実験の結果より、トピックモデルの有効性を確認できた。

報告書

(3件)
  • 2006 実績報告書   研究成果報告書概要
  • 2005 実績報告書
  • 研究成果

    (11件)

すべて 2006 2005

すべて 雑誌論文 (10件) 図書 (1件)

  • [雑誌論文] 英日統計的機械翻訳における語順優先探索デコーダ2006

    • 著者名/発表者名
      岩越隼人
    • 雑誌名

      情報処理学会論文誌 47・11

      ページ: 3032-3040

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2006 実績報告書 2006 研究成果報告書概要
  • [雑誌論文] Document level optimization in speech recognition2006

    • 著者名/発表者名
      Rie NAKAZATO
    • 雑誌名

      The 4th meeting of ASA and ASJ 2006

      ページ: 7-7

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2006 実績報告書 2006 研究成果報告書概要
  • [雑誌論文] Relevance feedback models for recommendation2006

    • 著者名/発表者名
      Masao UTIYAMA
    • 雑誌名

      The Proc. of the 2006 Conf. on Empirical Methods in NLP 2006

      ページ: 305-313

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2006 実績報告書 2006 研究成果報告書概要
  • [雑誌論文] Reordering priority decoder for statistical machine translation2006

    • 著者名/発表者名
      Hayato Iwakoshi
    • 雑誌名

      Transactions of IPSJ Vol.47,No.11

      ページ: 3032-3040

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2006 研究成果報告書概要
  • [雑誌論文] Document level optimization in speech recognition2006

    • 著者名/発表者名
      Rie Nakazato
    • 雑誌名

      The 4th meeting of ASA and ASJ

      ページ: 7-7

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2006 研究成果報告書概要
  • [雑誌論文] Relevance feedback models for recommendation2006

    • 著者名/発表者名
      Masao Utiyama
    • 雑誌名

      The Proceedings of the 2006 conference on Empirical Methods in NLP

      ページ: 305-313

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2006 研究成果報告書概要
  • [雑誌論文] 混合ディリクレ分布を用いたトピックに基づく言語モデル2005

    • 著者名/発表者名
      貞光九月
    • 雑誌名

      電子情報通信学会論文誌 J88-DII-9

      ページ: 1771-1779

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2006 研究成果報告書概要
  • [雑誌論文] Topic-based language models using Dirichlet Mixtures2005

    • 著者名/発表者名
      Kugatsu Sadamitsu
    • 雑誌名

      The IEICE Transactions on Information and Systems PT.2,Vol.J87-D-II,No.7

      ページ: 1771-1779

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2006 研究成果報告書概要
  • [雑誌論文] Spoken language resources2005

    • 著者名/発表者名
      Shuichi Itahashi
    • 雑誌名

      Spoken Language Systems (S.Nakagawa et al. ed.)(Ohmsha) Chapter 8

      ページ: 317-331

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2006 研究成果報告書概要
  • [雑誌論文] 混合ディリクレ分布を用いたトピックに基づく言語モデル2005

    • 著者名/発表者名
      貞光九月
    • 雑誌名

      電子情報通信学会論文誌 J88-D-II・9

      ページ: 1771-1779

    • 関連する報告書
      2005 実績報告書
  • [図書] Spoken Language Systems (8章分担「Spoken Language Resources」)2005

    • 著者名/発表者名
      S.Nakagawa et al.(Eds)
    • 出版者
      Ohmsha
    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2006 研究成果報告書概要

URL: 

公開日: 2005-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi