2010 Fiscal Year Annual Research Report
スペイン語圏の社会的事件の通時データベース作成と政策決定への応用
Project/Area Number |
22530531
|
Research Institution | The University of Tokyo |
Principal Investigator |
和田 毅 東京大学, 大学院・総合文化研究科, 准教授 (20534382)
|
Keywords | 言語学 / 社会学 / スペイン語 / 政治学 / 自然言語処理 |
Research Abstract |
本研究の主な目的は、スペイン語圏の主要な通信社が配信する記事を自動的にコード化してデータベースに保存し、かつこれをイベント分析などの手法を用いて解析することで政策決定などへの応用を可能にするシステムを開発することである。平成22年度は、交付申請書に記載した研究実施計画の3つの作業を以下のように実行した。 (1)自動記事収集システム開発。スペイン語圏の通信社の記事を自動的に収集・データベース化するシステムを開発するために必要なソフトウエアを購入した。これを用いて、収集した記事をXMLファイル形式に変換し、これをSQLデータとして保存するシステムの第1版を構築した。 (2)自動コード化ソフトウエア開発。XML形式で保存した通信社の記事から、本文を抽出し、その段落、文、単語を自動的に判別し、単語数や続き後の頻度の計算、collocation、concordance等の基本的な自然言語処理作業のプログラムを作成した。これらは目標である自動コード化のために必要なステップである。この作業のために必要なコンピュータ部品を購入した。 (3)イベント・データ解析。紛争や暴力が起きるメカニズムを研究し、将来イベント・データを用いた解析を行うための理論的整理を行った。この作業のために、スペイン語圏を中心とした社会運動の文献を購入した。 研究連携者の上田が自動コード化ソフトウエア開発の重要なプロセスの一つであるレンマ化解析の成果をスペインでの学会で発表した。レンマ化解析とは、theirであればthey、wentであればgoなどのように、語の基底語(lemma)を自動的に認定し、その品詞を確定する作業である。
|
Research Products
(2 results)