• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2005 Fiscal Year Annual Research Report

多言語コーパスを利用した語義の瞹昧さ解消と続報記事抽出への適用

Research Project

Project/Area Number 17500091
Research InstitutionUniversity of Yamanashi

Principal Investigator

福本 文代  山梨大学, 大学院・医学工学総合研究部, 助教授 (60262648)

Keywordsコンパラコーパス / EMアルゴリズム / 多義解消
Research Abstract

本研究では,多言語(英語・日本語・韓国語・中国語)から成るコンパラブルな報道記事コーパスに注目し,
(1)話題の推移を示す動詞単語の多義を解消する
(2)解消された多言語コーパスから正の事例に関連する事例を高精度で抽出する
(3)正の事例を用いて大量の負の事例を細分類する
(4)(2),及び(3)の結果を用いてユーザが指定した出来事に関する話題の推移を高精度で抽出し,提示する
ことを目的とする.
本年度は,(2)においては,多言語コーパスの対応づけとして,N-gramモデルを用いて,辞書に記載されていない対訳語を自動的に抽出する手法を提案した.具体的には,英語と日本語それぞれのコーパスに対して,N-gram統計モデルを適用することで,複合名詞を認識した.次に複合名詞で置き換えたコーパス中の単語に対して,カイ2乗を適用し,その値が高い英単語と日本語単語の組を抽出することで,半自動で対訳語を抽出した.さらに,対訳語で置き換えたコンパラブルコーパスに対して,余弦尺度を適用することで,英文記事と意味的に類似した日本語記事を抽出することで正の英語事例に関連する日本語事例を足し合わせることで,続報記事を高精度で抽出することに成功している.現在,複合名詞については,毎日新聞14年分,Reuters'96の1年分の記事を利用することで,抽出が終了している.また,対応記事とそれを用いた続報記事の抽出においては,TDT3コーパスと毎日新聞を用いた定量的な評価を試みている.さらに現在は,タイトル情報を利用した正の事例に関連する事例抽出の高精度化を図っている.(3)においては,K-means+EMアルゴリズムを用いることで負例の記事を細分類する手法の提案を行った.(3)に関してもTDT3コーパスを用いた定量的な評価を行っている.今後は,多言語として中国語,及び韓国語に対して提案手法を適用することで,多言語に対する定量的な評価を行う予定である.

  • Research Products

    (3 results)

All 2006 2005

All Journal Article (3 results)

  • [Journal Article] 分野の階層構造を利用したコーパスの誤り修正と文書分類への適用2006

    • Author(s)
      福本文代, 鈴木良弥
    • Journal Title

      電子情報通信学会論文誌 Vol.J89-D, No.3(採録決定)

  • [Journal Article] Generating Category Hierarchy for Classifying Large Corpora2006

    • Author(s)
      Fumiyo Fukumoto, Yoshimi Suzuki
    • Journal Title

      Trans of IEICE, Information and Systems Vol.E89-D, No.4(To appear)

  • [Journal Article] Topic Tracking Based on Linguistic Features2005

    • Author(s)
      Fumiyo Fukumoto, Yusuke Yamaji
    • Journal Title

      Proc.of the Second International Joint Conference on Natural Language Processing

      Pages: 10-21

URL: 

Published: 2007-04-02   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi