• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2011 Fiscal Year Annual Research Report

スペイン語圏の社会的事件の通時データベース作成と政策決定への応用

Research Project

Project/Area Number 22530531
Research InstitutionThe University of Tokyo

Principal Investigator

和田 毅  東京大学, 総合文化研究科, 准教授 (20534382)

Keywordsイベント分析 / 自然言語処理 / スペイン語圏
Research Abstract

本研究の目的は、(A)スペイン語圏の通信社が配信するニュース記事を、配信と同時にリアルタイムで自動コード化するプログラムを開発し、政治・経済・社会的事件の通時データベースを作成することである。平成23年度は、まず、①自動記事収集システムの開発を行った。インターネット上に公開されたスペイン語圏各国の主要な通信社の記事を自動的に収集して記事データベースに保存するシステムを開発した。通信社の配信する記事が常にエラーのない状態で送られてくるわけではなく、また、通信社によって更新の頻度や分量もまちまちであるため、FeedGatorというフリーソフトウエアを組み込み、これを調整して、エラーをチェックできる仕組みを完成させる作業に多くの時間を費やした。
次に、②自動コード化ソフトエアの開発も開始した。これは、natural language processing (NLP)の分野でinformation extractionと呼ばれる技術を応用した。記事テキストから「(1)いつ(time)、(2)どこで(location)、(3)だれが(actor)、(4)だれに対して(target)、(5)なぜ(issue)、(6)なにをした(action)」という6つの要素を自動的に発見するシステムである。このために、NLPの訓練を受けている大学院生のアシスタントを雇い、Linux上のシステムで、Semantic Role LabelingやNamed Entity RecognitionというNLPの分野の手法を用いた最初のシステムの構築を行った。
さらに、③イベント・データ解析の手法も試みた。②で作成されるイベント・データがまだないため最終的な解析法ではないが、既存のイベント・データを用いてその解析法を模索を行った。その成果をアメリカ社会学学会にて発表した。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

平成23年9月、自動記事収集システムの開発において想定外の技術的困難に直面した。その原因を特定し、自動記事収集システムの開発にとりかかるのに、当初の予定よりも4ヶ月遅れることとなった。平成24年1月にようやくこの開発に成功した。このシステムが完成しなければ、次に開発を予定していた自動コード化ソフトウェアで使用する記事データの生成ができないため、結果としてその後の自動コード化ソフトウエアの開発開始時期も遅れることとなった。このため、繰り越しをしなければならなくなった。

Strategy for Future Research Activity

平成24年度には、自動コード化ソフトウェアの開発をさらに進める。ソフトウエアの精度を高めていくためには、記事から抽出すべき情報の種類(「(1)いつ(time)、(2)どこで(location)、(3)だれが(actor)、(4)だれに対して(target)、(5)なぜ(issue)、(6)なにをした(action)」)によって最適なNLPの手法が異なっていると考えられるため、それぞれの情報の種類ごとにアプローチを変えて取り組む。このために、スペイン語とその自然言語処理に詳しい大学院生を雇用して、作業を進める。
さらに、情報源の多様化を図るために、新たな通信社の記事のダウンロードの自動化を試みる。今年は、メキシコのローカルな通信社を主な対象にする。
また、イベント・データ解析の手法の開発も行う。

  • Research Products

    (3 results)

All 2011 Other

All Journal Article (1 results) Presentation (2 results) (of which Invited: 1 results)

  • [Journal Article] Variacion lexica y gramatica del espanol peninsular e hispanoamericano2011

    • Author(s)
      Ruiz Tinoco, Antonio
    • Journal Title

      The Korean Journal of Hispanic Studies

      Volume: 3 Pages: 29-53

  • [Presentation] Nuevo metodo para la recogida de datos de variacion lexica. Encuestas en web en el proyecto de Varilex2011

    • Author(s)
      Hiroto Ueda
    • Organizer
      el XVI Congreso de la Asociacion de Linguistica y Filologia de America Latina
    • Place of Presentation
      Alcala de Henares, Spain
    • Year and Date
      20110606-20110609
  • [Presentation] A Study of Charles Tilly’s Data on Contentious Gatherings in Great Britain (BRIT)

    • Author(s)
      Takeshi Wada
    • Organizer
      The106th American Sociological Association Annual Meetings
    • Place of Presentation
      Las Vegas, Nevada
    • Invited

URL: 

Published: 2014-07-24  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi