本プロジェクトの目的はスペイン語の変異言語学的な研究で、ツイッターのデータを自動的に収集し、大規模なコーパスに蓄積することにより、広大なスペイン語圏のスペイン語の語彙と文法の地理的な分析をし、語彙と文法のバリエーションの研究をすることである。例えば、語彙のバリエーションとしてはメキシコのahorita、luego luegoなど、ベネズエラのchamo、picheなど、またはアルゼンチンではboludo、mina、またはa mi lado es un porotoのような独特な言い回しを、地理的な分布および用法についても調べることが可能になった。また、hicisteとhicistesのように過去形の二人称で見られるバリエーション現象も量的な分析と、その分布を示す言語地図を作成することも可能である。 本プロジェクトの最初の3年間でツイッターのStreaming APIから取集したツイートをデータベースに蓄積し、その件数は3900万件以上であった。今年度は、さらに1200万件が増え、およそ5.3億語以上となった。これらのデータはすべて地理コード(緯度経度)が含まれている。データの検索は正規表現などを利用し、CSV、SQL、JSONなど複数のフォーマットで出力することができる。そうすることによりExcel、GIS系などのソフトで処理することにより、さらに自然言語処理が可能になった。地理情報はQGISで処理することもできるようになった。 今年度も大学の学部生及び院生に紹介して、授業でスペイン語のバリエーションの語彙・文法だけではなく、文化的な意味などで複数のアプローチを試みた。また、国際学会でスペイン語のバリエーションを語学教育でどういうふうに利用すればいいかについて論じた。なお、バルセロナ自治大学の専門家とベルリン科学アカデミーのコーパス言語学の専門家との共同研究を進め成果を上げた。
|