統計的言語モデルにおけるモデル化単位の最適化に関する研究

研究課題

研究課題/領域番号	14580403
研究種目	基盤研究(C)
配分区分	補助金
応募区分	一般
研究分野	知能情報学
研究機関	筑波大学
研究代表者	山本幹雄筑波大学, 大学院・システム情報工学研究科, 助教授 (40210562)
研究期間 (年度)	2002 – 2004
研究課題ステータス	完了 (2004年度)
配分額 *注記	4,000千円 (直接経費: 4,000千円) 2004年度: 1,100千円 (直接経費: 1,100千円) 2003年度: 1,100千円 (直接経費: 1,100千円) 2002年度: 1,800千円 (直接経費: 1,800千円)
キーワード	自然言語処理 / 機械翻訳 / スペルチェッカ / 相互情報量 / ベイズ統計 / テキストモデリング / 階層モデル / フレーズ対訳辞書 / 相互情報量最小化 / ディリクレ分布 / 文書モデル / 音声認識 / 統計的言語モデル / 統計的機械翻訳 / 文脈モデル / モデル化単位
研究概要	本研究では統計的言語モデルの基本パラメータである2種類の単位について検討・再考を行った。最初に検討した単位は文を構成する最小単位(または辞書項目単位)である。普通の統計的言語モデルでは最小単位として単語あるいは文字が使われることが多い。しかし、機械翻訳などのいくつかの応用システムでは、単語より長い単位がシステムの性能を上げることが知られている。本研究では特に単位認定が困難な場合が多い複合語に焦点を当て、統計的基準によって単位を自動獲得する手法を比較・検討した。特に相互情報量最小化基準による単位の自動分割手法を提案し、機械翻訳における対訳フレーズ辞書の自動構築法として有効であることを示した。もう一つの単位は統計的言語モデルが最終的に確率を付与する文などの対象としての単位(対象単位)である。従来の統計的言語モデルの主な対象単位は「文」であったが、多くのアプリケーションでは文の集合であるテキスト(または文書)を出力とするため、本来テキスト全体で評価可能であるべきである。本研究では、混合ディリクレ分布を多項分布パラメータの事前分布とした(合成分布はPolya分布)テキスト全体を評価するモデルを提案した。新しいモデルは、従来のテキストモデルであるLDA(Latent Dirichlet Allocation)よりもパープレキシティと呼ばれる指標でよい性能を示した。文書全体を読み上げた音声を認識する大語彙連続音声認識システムの実験では、文書全体の情報を利用して効果的に誤認識部分を訂正できることを示した。

報告書

(4件)

研究成果
(22件)

すべて 2005 2004 2003 その他

すべて雑誌論文 (17件) 文献書誌 (5件)

[雑誌論文] 文書確立を用いた文書読み上げ音声認識2005
- 著者名/発表者名
  中里理恵
- 雑誌名
  
  日本音響学会2005春季研究発表会講演論文集 I
  
  ページ: 47-48
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] Read document recognition using document probability.2005
- 著者名/発表者名
  Rie NAKAZATO
- 雑誌名
  
  The 2005 Spring Meeting of the Acoustical Society of Japan
  
  ページ: 47-48
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] 文書確率を用いた文書読み上げ音声認識2005
- 著者名/発表者名
  中里理恵
- 雑誌名
  
  日本音響学会2005年度春季研究発表会講演論文集 I(発表予定)
- 関連する報告書
  2004 実績報告書
[雑誌論文] 確率的LSAを用いた日本語同音異義語誤りの検出・訂正2004
- 著者名/発表者名
  三品拓也
- 雑誌名
  
  情報処理学会論文誌 Vol.45,No.9
  
  ページ: 2168-2176
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] 確率的LSAに基づくngramモデルの変分ベイズ学習を利用した文脈適応化2004
- 著者名/発表者名
  三品拓也
- 雑誌名
  
  電子情報通信学会誌D-II Vol.87,No.7
  
  ページ: 1409-1417
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] 混合ディリクレ分布パラメータの階層ベイズモデルを用いたスムージング法2004
- 著者名/発表者名
  貞光九月
- 雑誌名
  
  情報処理学会研究報告 200-SLP-53
  
  ページ: 1-6
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] Context adaptation using variational Bayesian learning for ngram models based on probabilistic LSA2004
- 著者名/発表者名
  Takuya MISHINA
- 雑誌名
  
  The IEICE Transactions on Information and systems Vol.J87-D-II, No.7
  
  ページ: 1409-1417
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] Detection and correction of Japanese homophone errors using probabilisitic LSA.2004
- 著者名/発表者名
  Takuya MISHINA
- 雑誌名
  
  IPSJ Journal Vol.45, No.9
  
  ページ: 2168-2175
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] A smoothing method for parameters of Dirichlet mixtures using hierarchical Bayesian models.2004
- 著者名/発表者名
  Kugatsu SADAMITSU
- 雑誌名
  
  IPSJ SIG Technical Report 2004-SLP-53
  
  ページ: 1-6
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] A model for n-terms document friquency using Polya mixtures.2004
- 著者名/発表者名
  Kugatsu SADAMITSU
- 雑誌名
  
  Proceedings of the Tenth Annual Meeting of the Association for Natural Language Processing
  
  ページ: 697-700
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] 確率的LSAに基づくngramモデルの変分ベイズ学習を利用した文脈適応化2004
- 著者名/発表者名
  三品拓也
- 雑誌名
  
  電子情報通信学会誌D-II 87・7
  
  ページ: 1409-1417
- 関連する報告書
  2004 実績報告書
[雑誌論文] 確率的LSAを用いた日本語同音異義語誤りの検出・訂正2004
- 著者名/発表者名
  三品拓也
- 雑誌名
  
  情報処理学会論文誌 45・9
  
  ページ: 2168-2176
- 関連する報告書
  2004 実績報告書
[雑誌論文] 混合ディリクレ分布パラメータの階層ベイズモデルを用いたスムージング法2004
- 著者名/発表者名
  貞光九月
- 雑誌名
  
  情報処理学会研究報告 SLP-53
  
  ページ: 1-6
- 関連する報告書
  2004 実績報告書
[雑誌論文] 混合ディレクレ分布を用いた文脈のモデル化と言語モデルへの応用2003
- 著者名/発表者名
  山本幹雄
- 雑誌名
  
  情報処理学会研究報告 2003-SLP-48
  
  ページ: 29-34
- NAID
  110002913712
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] Context modeling using Dirichlet mixtures and its applications to language models.2003
- 著者名/発表者名
  Mikio YAMAMOTO
- 雑誌名
  
  IPSJ SIG Technical Report 2003-SLP-48
  
  ページ: 29-34
- NAID
  110002913712
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] 混合ディリクレ分布を用いたトピックに基づく言語モデル
- 著者名/発表者名
  貞光九月
- 雑誌名
  
  電子情報通信学会論文誌D-II (印刷中)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] Topic-based language models using Dirichlet mixtures.
- 著者名/発表者名
  Kugatsu SADAMITSU
- 雑誌名
  
  The IEICE Transactions on Information and systems (to appear.)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2004 研究成果報告書概要
[文献書誌] 山本幹雄: "混合ディレクレ分布を用いた文脈のモデル化と言語モデルへの応用"情報処理学会研究報告. SLP-48. 29-34 (2003)
- 関連する報告書
  2003 実績報告書
[文献書誌] 貞光九月: "混合Polya分布による多項文書頻度のモデル化"言語処理学会第10回年次大会発表論文集. (未定). (2004)
- 関連する報告書
  2003 実績報告書
[文献書誌] 三品拓也: "確率的LSAに基づくngramモデルの変分ベイズ学習を利用した文脈適応化"電子情報通信学会和文論文誌D-II. (未定). (2004)
- 関連する報告書
  2003 実績報告書
[文献書誌] 三品拓也: "確率的LSAに基づくngramモデルの変化ベイズ学習を利用した文脈適応化"情報処理学会研究報告. SLP-44. 177-182 (2002)
- 関連する報告書
  2002 実績報告書
[文献書誌] 三品拓也: "確率的LSAに基づくtrigramモデルを用いた日本語スペルチェッカ"言語処理学会第9回年次大会発表論文集. (2003)
- 関連する報告書
  2002 実績報告書

統計的言語モデルにおけるモデル化単位の最適化に関する研究

研究代表者

山本 幹雄 筑波大学, 大学院・システム情報工学研究科, 助教授 (40210562)

4,000千円 (直接経費: 4,000千円)

報告書

研究成果

[雑誌論文] 文書確立を用いた文書読み上げ音声認識2005

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] Read document recognition using document probability.2005

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] 文書確率を用いた文書読み上げ音声認識2005

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 確率的LSAを用いた日本語同音異義語誤りの検出・訂正2004

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] 確率的LSAに基づくngramモデルの変分ベイズ学習を利用した文脈適応化2004

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] 混合ディリクレ分布パラメータの階層ベイズモデルを用いたスムージング法2004

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] Context adaptation using variational Bayesian learning for ngram models based on probabilistic LSA2004

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] Detection and correction of Japanese homophone errors using probabilisitic LSA.2004

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] A smoothing method for parameters of Dirichlet mixtures using hierarchical Bayesian models.2004

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] A model for n-terms document friquency using Polya mixtures.2004

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] 確率的LSAに基づくngramモデルの変分ベイズ学習を利用した文脈適応化2004

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 確率的LSAを用いた日本語同音異義語誤りの検出・訂正2004

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 混合ディリクレ分布パラメータの階層ベイズモデルを用いたスムージング法2004

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 混合ディレクレ分布を用いた文脈のモデル化と言語モデルへの応用2003

著者名/発表者名

雑誌名

NAID

説明

関連する報告書

[雑誌論文] Context modeling using Dirichlet mixtures and its applications to language models.2003

著者名/発表者名

雑誌名

NAID

説明

関連する報告書

[雑誌論文] 混合ディリクレ分布を用いたトピックに基づく言語モデル

山本幹雄筑波大学, 大学院・システム情報工学研究科, 助教授 (40210562)

[文献書誌] 三品拓也: "確率的LSAに基づくtrigramモデルを用いた日本語スペルチェッカ"言語処理学会第9回年次大会発表論文集. (2003)