研究課題/領域番号 |
15K02527
|
研究機関 | 上智大学 |
研究代表者 |
|
研究期間 (年度) |
2015-04-01 – 2019-03-31
|
キーワード | スペイン語学 / コーパス言語学 / 方言額 / 変異言語学 / ソーシアルメディア / 方言地図 |
研究実績の概要 |
本研究の目的は、全スペイン語圏のインターネット上のソーシアルメディア(Twitter)のデータをプログラミングで自動的に収集し、専用のデータベースを構築することである。このような方法で集めたデータはスペイン語の変異言語学的な研究で利用する。具体的には語彙と文法の変異が主な研究対象となる。 収集したデータにはすべて発信地の経度と緯度があるので、GIS(地理情報システム)の技術を使いデジタル言語地図を作成する。データはおよそ4年間にわたり収集するので、通時的な研究となる。 現在まで2500万件以上のツイートがあり、研究の成果を複数の学会で発表した。 また、このような方法論で研究している外国の研究者と方法論について検討しているので、その成果をスペイン語の研究で応用している。例えば、スペインのバルセロナ大学のカタルーニャ語の研究者と共同研究をすることにより、スペイン語圏の二か国語併用の地域の問題点を把握する。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
現在まで、ツイッターから取集したデータは2500万件以上で、すべて専用データベースで管理している。現在もデータを増やし続けている。すでに3億語以上を収集している。 GISの技術を応用したスペイン語の変異についての論文を国内・国外の学会で発表した。 さらに、このような方法論で別の言語の言語変異を研究している研究者との意見交換により、方法論の開発の進め方について、単独で行うより予定が早くなった。
|
今後の研究の推進方策 |
1.変異の研究では頻度の低い現象なら多くのデータが必要となるので、28年度は2000万件以上を予定している。また、ボリビア、パラグアイのような地域では比較的に収集できるデータが少ないので、収集しつける必要が大きい。GISの技術を応用し、それぞれの現象を適切に言語地図上で表示するためにデータの可視化を研究していきたい。 2.データが多くなるにつれて、Big Dataの処理で利用されるNoSQL系のデータベースを使うことを検討する。その例としてはELK(Elastic,Logstash,Kibana)を検討し始めた。
|
次年度使用額が生じた理由 |
27年度は国内の学会を中心に研究の成果を発表したために、旅費を使うことが少なかった。
|
次年度使用額の使用計画 |
28年度は国際学会で発表する予定もあり、現地(主にスペイン)で研究の方法論も続ける計画があるので、旅費を使う
|