研究課題/領域番号 |
16650032
|
研究種目 |
萌芽研究
|
配分区分 | 補助金 |
研究分野 |
知能情報学
|
研究機関 | 国文学研究資料館 |
研究代表者 |
野本 忠司 国文学研究資料館, 複合領域研究系, 助教授 (20321557)
|
研究分担者 |
石川 彰 上智大学, 外国語学部, 教授 (10138373)
宇津呂 武仁 京都大学, 大学院・情報学研究科, 講師 (90263433)
原 正一郎 国文学研究資料館, 複合領域研究系, 助教授 (50218616)
|
研究期間 (年度) |
2004 – 2005
|
研究課題ステータス |
完了 (2005年度)
|
配分額 *注記 |
1,200千円 (直接経費: 1,200千円)
2005年度: 500千円 (直接経費: 500千円)
2004年度: 700千円 (直接経費: 700千円)
|
キーワード | 機械翻訳 / ベイズ型学習 / 統計学習 / 言語モデル / 機械学習 / 信頼性モデル |
研究概要 |
本年度は、翻訳モデルの新たな展開として、自動要約への拡張を行った。自動要約も確率モデルとしては、基本的に翻訳モデルと同等の構造を与えることが可能であり、本年度の研究でこのことを実際に示した。ここで言う自動要約とは、文章からの重要文の抽出を示す。文の重要度は、本研究では文の事前確率と、その文の要約文として生起する確率に基づいて計算されるが、本研究では、人間の主観的な選好バイアスを文の事前確率として表現しているところに大きな特徴がある。 本アプローチにおける要約は文章中の文が要約として選択される確率として表現(モデル化)される。さらに、モデルは基本的に文の選好バイアスからなる事前確率とそのバイアスのもとで文が要約として生起する尤度の積として表現される。今回の研究では選好バイアスは、文章中の文の出現位置に基づいたDirichlet分布を当てはめ、一般被験者にみられる、選択バイアスの揺れを統計的分布として表現している。一方、尤度部分については、文に関連した様々な情報(長さ、手掛かり語、ジャンル等)を使ったC4.5決定木に基づく学習によってモデル化する。 新聞(日経新聞)から3つ分野(報道、社説、随筆)の記事をデータとして用いて、本アプローチの有効性を検証した。実験では、文章の先頭から一定の割合で文を選択し要約とするいわゆるリード法による要約と本手法とを比較したが、本手法を使った場合、要約率10%でそれぞれの分野で一割の精度(precision)の向上を確認することができた。このことは、逆に主観情報が要約文の選択に強い影響を及ぼすことを意味しており、自動要約研究に新たな視点を与えることができた。
|