• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

動的言語モデルを利用した分散型機械翻訳システムの構築に向けた研究

研究課題

研究課題/領域番号 16650032
研究種目

萌芽研究

配分区分補助金
研究分野 知能情報学
研究機関国文学研究資料館

研究代表者

野本 忠司  国文学研究資料館, 複合領域研究系, 助教授 (20321557)

研究分担者 石川 彰  上智大学, 外国語学部, 教授 (10138373)
宇津呂 武仁  京都大学, 大学院・情報学研究科, 講師 (90263433)
原 正一郎  国文学研究資料館, 複合領域研究系, 助教授 (50218616)
研究期間 (年度) 2004 – 2005
研究課題ステータス 完了 (2005年度)
配分額 *注記
1,200千円 (直接経費: 1,200千円)
2005年度: 500千円 (直接経費: 500千円)
2004年度: 700千円 (直接経費: 700千円)
キーワード機械翻訳 / ベイズ型学習 / 統計学習 / 言語モデル / 機械学習 / 信頼性モデル
研究概要

本年度は、翻訳モデルの新たな展開として、自動要約への拡張を行った。自動要約も確率モデルとしては、基本的に翻訳モデルと同等の構造を与えることが可能であり、本年度の研究でこのことを実際に示した。ここで言う自動要約とは、文章からの重要文の抽出を示す。文の重要度は、本研究では文の事前確率と、その文の要約文として生起する確率に基づいて計算されるが、本研究では、人間の主観的な選好バイアスを文の事前確率として表現しているところに大きな特徴がある。
本アプローチにおける要約は文章中の文が要約として選択される確率として表現(モデル化)される。さらに、モデルは基本的に文の選好バイアスからなる事前確率とそのバイアスのもとで文が要約として生起する尤度の積として表現される。今回の研究では選好バイアスは、文章中の文の出現位置に基づいたDirichlet分布を当てはめ、一般被験者にみられる、選択バイアスの揺れを統計的分布として表現している。一方、尤度部分については、文に関連した様々な情報(長さ、手掛かり語、ジャンル等)を使ったC4.5決定木に基づく学習によってモデル化する。
新聞(日経新聞)から3つ分野(報道、社説、随筆)の記事をデータとして用いて、本アプローチの有効性を検証した。実験では、文章の先頭から一定の割合で文を選択し要約とするいわゆるリード法による要約と本手法とを比較したが、本手法を使った場合、要約率10%でそれぞれの分野で一割の精度(precision)の向上を確認することができた。このことは、逆に主観情報が要約文の選択に強い影響を及ぼすことを意味しており、自動要約研究に新たな視点を与えることができた。

報告書

(2件)
  • 2005 実績報告書
  • 2004 実績報告書
  • 研究成果

    (2件)

すべて 2005 2004

すべて 雑誌論文 (2件)

  • [雑誌論文] Bayesian Learning in Text Summarization2005

    • 著者名/発表者名
      野本 忠司
    • 雑誌名

      Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing

      ページ: 249-256

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] Multi-Engine Machine Translation with Voted Language Model2004

    • 著者名/発表者名
      野本 忠司
    • 雑誌名

      Proceedings of the Annual Meeting of the Association for Computational Linguistics 2004

      ページ: 494-501

    • 関連する報告書
      2004 実績報告書

URL: 

公開日: 2004-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi