研究課題
本研究の主な目的は、スペイン語圏の主要な通信社が配信する記事を自動的にコード化してデータベースに保存し、かつこれをイベント分析などの手法を用いて解析することで政策決定などへの応用を可能にするシステムを開発することである。平成22年度は、交付申請書に記載した研究実施計画の3つの作業を以下のように実行した。(1)自動記事収集システム開発。スペイン語圏の通信社の記事を自動的に収集・データベース化するシステムを開発するために必要なソフトウエアを購入した。これを用いて、収集した記事をXMLファイル形式に変換し、これをSQLデータとして保存するシステムの第1版を構築した。(2)自動コード化ソフトウエア開発。XML形式で保存した通信社の記事から、本文を抽出し、その段落、文、単語を自動的に判別し、単語数や続き後の頻度の計算、collocation、concordance等の基本的な自然言語処理作業のプログラムを作成した。これらは目標である自動コード化のために必要なステップである。この作業のために必要なコンピュータ部品を購入した。(3)イベント・データ解析。紛争や暴力が起きるメカニズムを研究し、将来イベント・データを用いた解析を行うための理論的整理を行った。この作業のために、スペイン語圏を中心とした社会運動の文献を購入した。研究連携者の上田が自動コード化ソフトウエア開発の重要なプロセスの一つであるレンマ化解析の成果をスペインでの学会で発表した。レンマ化解析とは、theirであればthey、wentであればgoなどのように、語の基底語(lemma)を自動的に認定し、その品詞を確定する作業である。
すべて 2010
すべて 雑誌論文 (1件) (うち査読あり 1件) 学会発表 (1件)
Isabel Moskowich-Spiegel Fandirio, Begoria Crespo Garcia, Inds Lareo Martin, Paula Lojo, Sandino (eds.) Visualizacion del lenguaje a traves de corpus.
ページ: 919-932