動的言語モデルを利用した分散型機械翻訳システムの構築に向けた研究

研究課題

研究課題/領域番号	16650032
研究種目	萌芽研究
配分区分	補助金
研究分野	知能情報学
研究機関	国文学研究資料館
研究代表者	野本忠司国文学研究資料館, 複合領域研究系, 助教授 (20321557)
研究分担者	石川彰上智大学, 外国語学部, 教授 (10138373) 宇津呂武仁京都大学, 大学院・情報学研究科, 講師 (90263433) 原正一郎国文学研究資料館, 複合領域研究系, 助教授 (50218616)
研究期間 (年度)	2004 – 2005
研究課題ステータス	完了 (2005年度)
配分額 *注記	1,200千円 (直接経費: 1,200千円) 2005年度: 500千円 (直接経費: 500千円) 2004年度: 700千円 (直接経費: 700千円)
キーワード	機械翻訳 / ベイズ型学習 / 統計学習 / 言語モデル / 機械学習 / 信頼性モデル
研究概要	本年度は、翻訳モデルの新たな展開として、自動要約への拡張を行った。自動要約も確率モデルとしては、基本的に翻訳モデルと同等の構造を与えることが可能であり、本年度の研究でこのことを実際に示した。ここで言う自動要約とは、文章からの重要文の抽出を示す。文の重要度は、本研究では文の事前確率と、その文の要約文として生起する確率に基づいて計算されるが、本研究では、人間の主観的な選好バイアスを文の事前確率として表現しているところに大きな特徴がある。本アプローチにおける要約は文章中の文が要約として選択される確率として表現(モデル化)される。さらに、モデルは基本的に文の選好バイアスからなる事前確率とそのバイアスのもとで文が要約として生起する尤度の積として表現される。今回の研究では選好バイアスは、文章中の文の出現位置に基づいたDirichlet分布を当てはめ、一般被験者にみられる、選択バイアスの揺れを統計的分布として表現している。一方、尤度部分については、文に関連した様々な情報(長さ、手掛かり語、ジャンル等)を使ったC4.5決定木に基づく学習によってモデル化する。新聞(日経新聞)から3つ分野(報道、社説、随筆)の記事をデータとして用いて、本アプローチの有効性を検証した。実験では、文章の先頭から一定の割合で文を選択し要約とするいわゆるリード法による要約と本手法とを比較したが、本手法を使った場合、要約率10%でそれぞれの分野で一割の精度(precision)の向上を確認することができた。このことは、逆に主観情報が要約文の選択に強い影響を及ぼすことを意味しており、自動要約研究に新たな視点を与えることができた。

報告書

(2件)

2005 実績報告書
2004 実績報告書

研究成果
(2件)

すべて 2005 2004

すべて雑誌論文 (2件)

[雑誌論文] Bayesian Learning in Text Summarization2005
- 著者名/発表者名
  野本忠司
- 雑誌名
  
  Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing
  
  ページ: 249-256
- 関連する報告書
  2005 実績報告書
[雑誌論文] Multi-Engine Machine Translation with Voted Language Model2004
- 著者名/発表者名
  野本忠司
- 雑誌名
  
  Proceedings of the Annual Meeting of the Association for Computational Linguistics 2004
  
  ページ: 494-501
- 関連する報告書
  2004 実績報告書

動的言語モデルを利用した分散型機械翻訳システムの構築に向けた研究

研究代表者

野本 忠司 国文学研究資料館, 複合領域研究系, 助教授 (20321557)

1,200千円 (直接経費: 1,200千円)

報告書

研究成果

[雑誌論文] Bayesian Learning in Text Summarization2005

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Multi-Engine Machine Translation with Voted Language Model2004

著者名/発表者名

雑誌名

関連する報告書

野本忠司国文学研究資料館, 複合領域研究系, 助教授 (20321557)