動的言語モデルを利用した分散型機械翻訳システムの構築に向けた研究

Research Project

Project/Area Number	16650032
Research Category	Grant-in-Aid for Exploratory Research
Allocation Type	Single-year Grants
Research Field	Intelligent informatics
Research Institution	National Institute of Japanese Literature
Principal Investigator	野本忠司国文学研究資料館, 複合領域研究系, 助教授 (20321557)
Co-Investigator(Kenkyū-buntansha)	石川彰上智大学, 外国語学部, 教授 (10138373) 宇津呂武仁京都大学, 大学院・情報学研究科, 講師 (90263433) 原正一郎国文学研究資料館, 複合領域研究系, 助教授 (50218616)
Project Period (FY)	2004 – 2005
Project Status	Completed (Fiscal Year 2005)
Budget Amount *help	¥1,200,000 (Direct Cost: ¥1,200,000) Fiscal Year 2005: ¥500,000 (Direct Cost: ¥500,000) Fiscal Year 2004: ¥700,000 (Direct Cost: ¥700,000)
Keywords	機械翻訳 / ベイズ型学習 / 統計学習 / 言語モデル / 機械学習 / 信頼性モデル
Research Abstract	本年度は、翻訳モデルの新たな展開として、自動要約への拡張を行った。自動要約も確率モデルとしては、基本的に翻訳モデルと同等の構造を与えることが可能であり、本年度の研究でこのことを実際に示した。ここで言う自動要約とは、文章からの重要文の抽出を示す。文の重要度は、本研究では文の事前確率と、その文の要約文として生起する確率に基づいて計算されるが、本研究では、人間の主観的な選好バイアスを文の事前確率として表現しているところに大きな特徴がある。本アプローチにおける要約は文章中の文が要約として選択される確率として表現(モデル化)される。さらに、モデルは基本的に文の選好バイアスからなる事前確率とそのバイアスのもとで文が要約として生起する尤度の積として表現される。今回の研究では選好バイアスは、文章中の文の出現位置に基づいたDirichlet分布を当てはめ、一般被験者にみられる、選択バイアスの揺れを統計的分布として表現している。一方、尤度部分については、文に関連した様々な情報(長さ、手掛かり語、ジャンル等)を使ったC4.5決定木に基づく学習によってモデル化する。新聞(日経新聞)から3つ分野(報道、社説、随筆)の記事をデータとして用いて、本アプローチの有効性を検証した。実験では、文章の先頭から一定の割合で文を選択し要約とするいわゆるリード法による要約と本手法とを比較したが、本手法を使った場合、要約率10%でそれぞれの分野で一割の精度(precision)の向上を確認することができた。このことは、逆に主観情報が要約文の選択に強い影響を及ぼすことを意味しており、自動要約研究に新たな視点を与えることができた。

Report

(2 results)

2005 Annual Research Report
2004 Annual Research Report

Research Products
(2 results)

All 2005 2004

All Journal Article (2 results)

[Journal Article] Bayesian Learning in Text Summarization2005
- Author(s)
  野本忠司
- Journal Title
  
  Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing
  
  Pages: 249-256
- Related Report
  2005 Annual Research Report
[Journal Article] Multi-Engine Machine Translation with Voted Language Model2004
- Author(s)
  野本忠司
- Journal Title
  
  Proceedings of the Annual Meeting of the Association for Computational Linguistics 2004
  
  Pages: 494-501
- Related Report
  2004 Annual Research Report

動的言語モデルを利用した分散型機械翻訳システムの構築に向けた研究

Principal Investigator

野本 忠司 国文学研究資料館, 複合領域研究系, 助教授 (20321557)

¥1,200,000 (Direct Cost: ¥1,200,000)

Report

Research Products

[Journal Article] Bayesian Learning in Text Summarization2005

Author(s)

Journal Title

Related Report

[Journal Article] Multi-Engine Machine Translation with Voted Language Model2004

Author(s)

Journal Title

Related Report

野本忠司国文学研究資料館, 複合領域研究系, 助教授 (20321557)