2005 Fiscal Year Annual Research Report

動的言語モデルを利用した分散型機械翻訳システムの構築に向けた研究

Research Project

Project/Area Number	16650032
Research Institution	National Institute of Japanese Literature
Principal Investigator	野本忠司国文学研究資料館, 複合領域研究系, 助教授 (20321557)
Co-Investigator(Kenkyū-buntansha)	石川彰上智大学, 外国語学部, 教授 (10138373) 宇津呂武仁京都大学, 大学院・情報学研究科, 講師 (90263433) 原正一郎国文学研究資料館, 複合領域研究系, 助教授 (50218616)
Keywords	機械翻訳 / ベイズ型学習 / 統計学習
Research Abstract	本年度は、翻訳モデルの新たな展開として、自動要約への拡張を行った。自動要約も確率モデルとしては、基本的に翻訳モデルと同等の構造を与えることが可能であり、本年度の研究でこのことを実際に示した。ここで言う自動要約とは、文章からの重要文の抽出を示す。文の重要度は、本研究では文の事前確率と、その文の要約文として生起する確率に基づいて計算されるが、本研究では、人間の主観的な選好バイアスを文の事前確率として表現しているところに大きな特徴がある。本アプローチにおける要約は文章中の文が要約として選択される確率として表現(モデル化)される。さらに、モデルは基本的に文の選好バイアスからなる事前確率とそのバイアスのもとで文が要約として生起する尤度の積として表現される。今回の研究では選好バイアスは、文章中の文の出現位置に基づいたDirichlet分布を当てはめ、一般被験者にみられる、選択バイアスの揺れを統計的分布として表現している。一方、尤度部分については、文に関連した様々な情報(長さ、手掛かり語、ジャンル等)を使ったC4.5決定木に基づく学習によってモデル化する。新聞(日経新聞)から3つ分野(報道、社説、随筆)の記事をデータとして用いて、本アプローチの有効性を検証した。実験では、文章の先頭から一定の割合で文を選択し要約とするいわゆるリード法による要約と本手法とを比較したが、本手法を使った場合、要約率10%でそれぞれの分野で一割の精度(precision)の向上を確認することができた。このことは、逆に主観情報が要約文の選択に強い影響を及ぼすことを意味しており、自動要約研究に新たな視点を与えることができた。

Research Products
(1 results)

All Journal Article (1 results)

[Journal Article] Bayesian Learning in Text Summarization2005
- Author(s)
  野本忠司
- Journal Title
  
  Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing
  
  Pages: 249-256