2011 Fiscal Year Research-status Report
Project/Area Number |
23520523
|
Research Institution | Sophia University |
Principal Investigator |
|
Project Period (FY) |
2011-04-28 – 2014-03-31
|
Keywords | 変異言語学 / コーパス言語学 / スペイン語学 / スペイン語圏 |
Research Abstract |
本研究の目的は、全スペイン語圏の国の主なインターネット上の新聞の記事・ニュースをデータベース化し、スペイン語の変異を研究するためのオンラインコーパスを設計し、構築することである。主な特徴としては、全スペイン語圏の現在のデータが含まれ、形態素情報(品詞)、国別などを含む複雑な検索が可能で、インターネットで容易にアクセスできるオンラインコーパスになることがあげられる。このようなコーパスを一般研究者・教育者が語彙、文法、語用論、変異、等の研究で自由に利用できるようになる。 これらの特徴をもったコーパスを作成するために、23年度は特に次の具体的な点を達成した。WEB データの抽出の技術を評価し、一般的なウェブデータマイニングを利用するよりもRSSを使い、データ収集がより容易に行われることが判明した。現在は、一部の新聞のRSSデータを自動的に集め、テスト用のデータベースを作成することできた。さらに、RSSの構造はTwitterの構造との共通点が多く、容易にスペイン語の地理的な変異を調べるためにも大変役立つデータ源になった。また、Twitterのデータ収集のテストを行い、自動的にデータベース化したことによって、スペイン語の直説法・接続法の研究のために応用し、実際に学会で研究発表することができた。さらに、スペイン語とカタルーニャ語の接触で起きるいくつかの現象の研究をするために変異言語学の専門家(主にバルセロナ大学)の協力も得られた。 このように収集したデータに形態情報の付与のテストも完成し、24年度からは予定として約30紙のデータを収集し始め、データベースを完成する予定で、さらにオンライン上のコーパスの検索用のインターフェースのテストも始める。24年度も国際学会で本研究の一部の結果を発表する。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
おおむね順調に進展している。データ収集のテストで方法論がほぼ確立され、実際にテストで得られたデータの一部を使って、国際学会でその分析を発表できた。
|
Strategy for Future Research Activity |
データを収集するためのサーバーのメンテナンスと研究用のソフト開発をしながら、データ収集を続け、新聞記事のデータベースを完成し、コーパス検索用のインターフェースのテストをし、成果の一部を国際学会で発表する予定。
|
Expenditure Plans for the Next FY Research Funding |
新聞記事およびツイッターのデータを収集するためのサーバーのメンテナンスをし、データベースを完成するためのスクリプトの作成、及びテストのために実験用の新しい小型のサーバーを構築する必要がある。収集したデータをデータベース化した後、形態素情報(品詞)を付与し、オンライン上で検索用のインターフェースをテストする。このように得られたコーパスのデータを使い、研究打合せを行い、その成果を内外の学会で発表する。主な費用は新しいハード・ソフトの購入、ソフト作成(一部は依頼)、文献購入と研究打合せ及び学会発表のための出張費。
|