研究課題/領域番号 |
23520523
|
研究機関 | 上智大学 |
研究代表者 |
|
キーワード | スペイン語学 / スペイン語圏 / コーパス言語学 / 変異言語学 / データベース / 方言学 / 国際情報交換 / RSS |
研究概要 |
本研究の目的は、全スペイン語圏の主なインターネット上の新聞の記事・ニュースをデータベース化し、スペイン語の変異を研究するためのオンラインコーパスを設計し、構築することである。主な特徴は、全スペイン語圏の現在のデータが含まれ、形態素情報、国別などを含む検索が可能で、インターネットで容易にアクセスできるオンラインコーパスになることがあげられる。このようなコーパスを一般研究者・教育者が語彙、文法、語用論、変異、等の研究で自由に利用できるようになる。 これらの特徴をもったコーパスを作成するために、23年度および24年度は次の具体的な点を達成した。WEB データの抽出の技術を評価し、一般的なウェブデータマイニングを利用するよりもRSSを使い、データ収集がより容易に行われることが判明した。現在は、一部の新聞のRSSデータを自動的に収集し続け、テスト用のデータベースを作成することができた。さらに、RSSの構造はTwitterの構造との共通点があり、容易にスペイン語の地理的な変異を調べるためにも大変役立つデータ源になった。また、Twitterのデータ収集のテストを行い、自動的にデータベース化したことによって、スペイン語の直説法・接続法、否定副詞(nada,nunca,nadieなど)、所有詞の用法(detras de mi, detras mioなど)の研究の一部の成果を発表することができた。さらに、スペインとラテンアメリカのスペイン語の研究者(主に、バルセロナ大学、プエルトリコ大学、ニューヨーク市立大学)の協力が得られた。 このように収集したデータに形態情報の付与のテストも完成し、24年度からは約30紙のデータを収集し始め、データベースを完成する予定で、さらにオンライン上のコーパスの検索用のインターフェースのテストも始める。25年度も国際学会で本研究の一部の結果を発表する。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
おおむね順調に進展している。最初のサーバーをインストールした後、実験用とデータ収集用のサーバーもインストールした。データベース自体の構築がほぼ完成し、インターフェース用のスクリプトも進んでいる。RSSによるデータ収集のテストで方法論がほぼ確立され、さらにツイッターのデータ収集も行った。形態素情報の付与を実験し、方法論的に進んだ。実際にテストで得られたデータの一部を利用し、国際学会(日本、スペイン、米国)でその分析を数回発表できた。
|
今後の研究の推進方策 |
データを収集するためのサーバーのメンテナンスと研究用のソフト開発をしながら、データ収集を続け、新聞記事のデータベースをテーマ別(国内ニュース、国際ニュース、政治・経済、スポーツ)に完成し、コーパス検索用のインターフェースのテストをする。また、内外の専門家と情交換をしながらデータを分析し、その成果を国際学会で発表する。
|
次年度の研究費の使用計画 |
新聞記事およびツイッターのデータを収集するため、データ収集、スクリプトの作成・テスト、実験用の別々のサーバーのメンテナンスをし、データベースの構築を完成する。収集したデータをデータベース化した後、後処理の形態素情報(品詞)を付与、オンライン上で検索用のインターフェース作成のテストをし、最終版を完成する。このような方法で得られたコーパスのデータを使い、研究打合せを行い、その成果を内外の学会で発表する。主な費用は新しいハード・ソフトの購入、ソフト作成(一部は依頼)、文献購入と研究打合せ及び学会発表のための出張費。
|