• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2004 Fiscal Year Annual Research Report

統計的言語モデルにおけるモデル化単位の最適化に関する研究

Research Project

Project/Area Number 14580403
Research InstitutionUniversity of Tsukuba

Principal Investigator

山本 幹雄  筑波大学, 大学院・システム情報工学研究科, 助教授 (40210562)

Keywordsフレーズ対訳辞書 / 機械翻訳 / 相互情報量最小化 / ディリクレ分布 / 文書モデル / 音声認識
Research Abstract

本年度は(1)「辞書項目としての単位」の最適化に関して、実際に機械翻訳システムのフレーズ対訳辞書を英日対訳コーパス(文対応)から自動抽出するシステムの試作・評価、(2)「モデル化する対象単位」を文から文書に拡大した場合のモデルの提案と音声認識に応用した場合の効果を検討した。
フレーズ対訳辞書を作成する場合、どの程度の長さのフレーズを辞書項目とするかの判断が困難となる。本研究では、昨年度までに検討した様々な統計的基準を用いて、まず日本語を自動的にフレーズに分割し、その後、そのフレーズに対応する英語フレーズを決定するアルゴリズムを考案した。評価としては、あらかじめ人間が作成したフレーズ対応部分を、提案アルゴリズムがどの程度正確に抽出できるかを測定した。結果としては、様々な統計的基準のうち相互情報量最小化基準によって分割する場合が、もっとも人間の判断に近いことが明らかになった。これは、相互情報量最小化基準の意味的な合理性からも納得のいく結論である。
モデル化する対象単位に関しては、これまでの統計的言語モデルが主に「文」に対する確率を付与していたところを「文」の集合である「文章」に対する確率を付与することができるようにディリクレ分布を用いたモデルを提案した。このモデルを音声認識システムに応用し、文単位で認識結果を最適化するよりも、文書単位で最適化する方が単語誤り率を平均で4%、最大で22%削減できることが分かり、モデル化する対象単位の選択による高性能化が可能であることが分かった。

  • Research Products

    (4 results)

All 2005 2004

All Journal Article (4 results)

  • [Journal Article] 文書確率を用いた文書読み上げ音声認識2005

    • Author(s)
      中里理恵
    • Journal Title

      日本音響学会2005年度春季研究発表会講演論文集 I(発表予定)

  • [Journal Article] 確率的LSAに基づくngramモデルの変分ベイズ学習を利用した文脈適応化2004

    • Author(s)
      三品拓也
    • Journal Title

      電子情報通信学会誌D-II 87・7

      Pages: 1409-1417

  • [Journal Article] 確率的LSAを用いた日本語同音異義語誤りの検出・訂正2004

    • Author(s)
      三品拓也
    • Journal Title

      情報処理学会論文誌 45・9

      Pages: 2168-2176

  • [Journal Article] 混合ディリクレ分布パラメータの階層ベイズモデルを用いたスムージング法2004

    • Author(s)
      貞光九月
    • Journal Title

      情報処理学会研究報告 SLP-53

      Pages: 1-6

URL: 

Published: 2006-07-12   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi