本研究の目的は、(A)スペイン語圏の通信社が配信するニュース記事を、配信と同時にリアルタイムで自動コード化するプログラムを開発し、政治・経済・社会的事件の通時データベースを作成することである。具体的には、①自動記事収集システム開発、②自動コード化ソフトウエア開発、③イベント・データ解析の3つの作業から成る。 ①自動記事収集システム開発:これまでの作業で、FeedGatorソフトを導入することにより、スペイン語圏各国の主要な通信社の記事を自動的に収集して記事データベースに保存するシステムの開発に成功した。しかし、通信社によっては頻繁にエラーを生じるものもあり、その修正や調整にかなりの労力を費やさなければならず、今後はオンライン記事の購入を検討することとした。 ② 自動コード化ソフトエア開発:自動コード化ソフトウエア開発には、自然言語処理(natural language processing:NLP)の分野でinformation extractionと呼ばれる技術を応用した。スペイン語を理解し、自然言語処理学を習熟し、プログラミングに長けている博士課程院生のアシスタントを雇い、Linux上でシステム開発を進めた。自動収集した記事の文法構造を自動的に解析し、イベント情報(「(1)いつ(time)、(2)どこで(location)、(3)だれが(actor)、(4)だれに対して(target)、(5)なぜ(issue)、(6)なにをした(action)」)を抽出する手法を用いた。このソフトウエアの精度を高めるには、正しい抽出パターンをシステムに学習させる必要があり、このため、上記6種類のタグを付与するソフトウエアを作成した。 ③ イベント・データ解析:既存のイベント・データを利用して解析法を模索しモデルを作成した。
|