• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2006 年度 実績報告書

重要文抽出と文簡約を併用する圧縮度の高い新聞記事自動要約

研究課題

研究課題/領域番号 16500077
研究機関電気通信大学

研究代表者

尾関 和彦  電気通信大学, 電気通信学部, 教授 (50214135)

研究分担者 高木 一幸  電気通信大学, 電気通信学部, 助手 (70272755)
キーワード文章要約 / 文簡約 / 情報保持 / 構文的自然性 / 係り受け整合度 / 文節対応付け
研究概要

本研究課題は,文簡約,すなわち原文が持つ情報をできるだけ保持しながら,それをより短い文に自動的に書き換える処理に重点を置いている.本年度は次の研究を行なった.
1.本研究では,情報の保持度を定義するため文節重要度を用い,また,構文的自然性の程度を定義するため文節間の係り受け整合度を用いている.文節重要度は,文節残存率,すなわち,原文に存在する文節が簡約文に採用される相対頻度に基づいて求め,また,係り受け整合度は,原文においてある係り受け距離を持つ文節対が簡約文において係り受け距離1で現れる割合に基づいて求めて来た.今年度は,このようなヒューリスティクな方法を確率論的な枠組みで再定式化することを試みた.原文が与えられたとき,ある係り受け構造を持った簡約文が得られる確率を計算すると,その式の中に文節重要度や係り受け整合度に相当する項が現れる.それらの項を原文と簡約文が対になったデータベースを用いて推定し,それを用いて簡約文を生成した.主観評価実験を行なった結果,この方法による簡約文は,情報の保持度,構文的自然性,総合評価のいずれにおいても,ヒューリスティクスを用いた場合とほぼ同等の品質を持つことが明らかになった.
2.これまで,文節重要度は各文節の残存率に基づいて求めていた.しかし,この方法では,例えば,原文中の「開催した」が簡約文中で「開いた」となっていた場合,それらの文節は一致したとみなされず,「開催した」は残存したことにならない.この問題を解決するため,原文と簡約文の間の文節対応付けをした上で残存率の計算を行なった.また,文節は,それを受ける文節によって重要度が変化する可能性がある.そこで,係り先の文節の素性も考慮に入れて残存率を計算した.生成された簡約文を観察したところ,ある程度の改善が見られたが,厳密な評価は今後の課題である.

  • 研究成果

    (3件)

すべて 2007 2006

すべて 雑誌論文 (3件)

  • [雑誌論文] 確率的な手法による日本語文簡約2007

    • 著者名/発表者名
      福冨 諭
    • 雑誌名

      言語処理学会第13回年次大会発表論文集 D5-2(印刷中)

  • [雑誌論文] Sentence compression using statistical information about dependency path length2006

    • 著者名/発表者名
      Kiwamu Yamagata
    • 雑誌名

      Proc. TSD 2006 (LNAI 4188)

      ページ: 127-134

  • [雑誌論文] Sentence compression : p progress report2006

    • 著者名/発表者名
      Kazuhiko Ozeki
    • 雑誌名

      The 6th China-Japan Natural language Processing Joint Research Promotion Conference (CD作成中)

URL: 

公開日: 2008-05-08   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi