研究課題/領域番号 |
22530531
|
研究機関 | 東京大学 |
研究代表者 |
和田 毅 東京大学, 総合文化研究科, 准教授 (20534382)
|
キーワード | イベント分析 / 自然言語処理 / スペイン語圏 |
研究概要 |
本研究の目的は、(A)スペイン語圏の通信社が配信するニュース記事を、配信と同時にリアルタイムで自動コード化するプログラムを開発し、政治・経済・社会的事件の通時データベースを作成することである。平成23年度は、まず、①自動記事収集システムの開発を行った。インターネット上に公開されたスペイン語圏各国の主要な通信社の記事を自動的に収集して記事データベースに保存するシステムを開発した。通信社の配信する記事が常にエラーのない状態で送られてくるわけではなく、また、通信社によって更新の頻度や分量もまちまちであるため、FeedGatorというフリーソフトウエアを組み込み、これを調整して、エラーをチェックできる仕組みを完成させる作業に多くの時間を費やした。 次に、②自動コード化ソフトエアの開発も開始した。これは、natural language processing (NLP)の分野でinformation extractionと呼ばれる技術を応用した。記事テキストから「(1)いつ(time)、(2)どこで(location)、(3)だれが(actor)、(4)だれに対して(target)、(5)なぜ(issue)、(6)なにをした(action)」という6つの要素を自動的に発見するシステムである。このために、NLPの訓練を受けている大学院生のアシスタントを雇い、Linux上のシステムで、Semantic Role LabelingやNamed Entity RecognitionというNLPの分野の手法を用いた最初のシステムの構築を行った。 さらに、③イベント・データ解析の手法も試みた。②で作成されるイベント・データがまだないため最終的な解析法ではないが、既存のイベント・データを用いてその解析法を模索を行った。その成果をアメリカ社会学学会にて発表した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
平成23年9月、自動記事収集システムの開発において想定外の技術的困難に直面した。その原因を特定し、自動記事収集システムの開発にとりかかるのに、当初の予定よりも4ヶ月遅れることとなった。平成24年1月にようやくこの開発に成功した。このシステムが完成しなければ、次に開発を予定していた自動コード化ソフトウェアで使用する記事データの生成ができないため、結果としてその後の自動コード化ソフトウエアの開発開始時期も遅れることとなった。このため、繰り越しをしなければならなくなった。
|
今後の研究の推進方策 |
平成24年度には、自動コード化ソフトウェアの開発をさらに進める。ソフトウエアの精度を高めていくためには、記事から抽出すべき情報の種類(「(1)いつ(time)、(2)どこで(location)、(3)だれが(actor)、(4)だれに対して(target)、(5)なぜ(issue)、(6)なにをした(action)」)によって最適なNLPの手法が異なっていると考えられるため、それぞれの情報の種類ごとにアプローチを変えて取り組む。このために、スペイン語とその自然言語処理に詳しい大学院生を雇用して、作業を進める。 さらに、情報源の多様化を図るために、新たな通信社の記事のダウンロードの自動化を試みる。今年は、メキシコのローカルな通信社を主な対象にする。 また、イベント・データ解析の手法の開発も行う。
|