2017 Fiscal Year Research-status Report
Project/Area Number |
15K02527
|
Research Institution | Sophia University |
Principal Investigator |
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | スペイン語学 / 変異言語学 / コーパス言語学 / 方言地図作成 / ソーシアルメディア |
Outline of Annual Research Achievements |
本プロジェクトの目的はスペイン語の変異言語学的な研究で、そのアプローチとしてインターネット上のソーシアルメディア(主にツイッター)のデータをStreaming APIを利用し、 自動的に収集し、大規模なコーパスを作成することにより、広大なスペイン語圏のスペイン語の語彙と文法の地理的な分析をすることである。利用するデータベースに関してはSQL系(MySQL)とNoSQL系(Elastic Stack)を両方テストした。地理的な情報(経度、緯度)が含まれるデータはMySQLのデータベースに蓄積し、他の言語も含まれるデータはNoSQL系のデータベースに蓄積し、目的により使い分けることにしている。例えば、米国のスペイン語と英語の接触、あるいはスペインのスペイン語とカタルーニャ語の言語接触の現象を研究するために、可能な範囲で他の言語もNoSQL系のデータベースで蓄積した。Elastic StackのようなNoSQL系のデータベースは、ツイッターのJSONフォーマットをそのまま処理できるので、Kibanaなどで基本的な可視化もできる。しかし、言語地図の作成はGIS専用のQGISで行う。 このような方法で集めたデータによってスペイン語の具体的な語彙と文法のバリエーションの共時的な研究が可能になった。例えば、語彙のバリエーションとしてはメキシコのcobija、apapacharなど、ベネズエラのpiche、arrecheraなど、またはアルゼンチンではgauchar、mina、またはa mi lado es un porotoのような独特な言い回しを、地理的な分布および用法についても調べることが可能になった。また、hicisteとhicistesのように過去形の二人称で見られるバリエーション現象も量的な分析と、その分布を示す言語地図を作成することも可能である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本プロジェクトの最初の2年間でツイッターのStreaming APIから取集したデータをSQL系のデータベースに蓄積し、その件数は3000万件(訳3.2億語)以上であった。今年度は、さらに1500万件(訳1.6億語)が増えた。これらのデータはすべて地理コード(緯度経度)が含まれている。NoSQL系のデータベースには英語など他言語も含め2億件以上が蓄積されている。その内2200万件以上がスペイン語のデータである。それぞれの言語を専用データベースで管理し、分析の方法を実験し続けている。データの検索は正規表現などを利用し、CSV、SQL、JSONなど複数のフォーマットで出力することができる。そうすることによりExcel、GIS系などのソフトで読み込むことにより、さらに自然言語処理が可能になった。地理情報はQGISで処理することもできた。また、NoSQL系のデータベースに入っている地理情報はKibanaという可視化用のソフトで素早く処理するもできた。 さらに、reverse geocodingというGISの高度な技術を利用し、経度・緯度の情報が入っていないツイッターのuser.locationを計算し、分布地図で表示できる件数は大幅に増えたので、大学の学部生及び院生に紹介して、授業でスペイン語のバリエーションの語彙・文法だけではなく、文化的な意味などで複数のアプローチを試みた。また、国際学会でスペイン語のバリエーションを語学教育でどういうふうに利用すればいいかについて論じた。なお、バルセロナ自治大学の専門家とオーストリア科学アカデミーのコーパス言語学の専門家との共同研究を進め、成果を上げた。
|
Strategy for Future Research Activity |
30年度はデータを収集しながら、語彙及び文法のバリエーションの分析方法を研究し続ける予定である。スペイン語教育の観点で頻度の高い基本語彙や文法事項の他に、バリエーションをより深く理解するためにスペイン語話者が移動して発信した場合は移動をどのように扱えばいいかを研究する予定である。例えば、マドリードから収集したデータは必ずしもマドリード出身の話者でるとは限らず、逆にマドリード以外でも別の場所に移動してツイッターを利用するので、その空間と時間を適切に処理しなければならない。同じように言語接触、バイリンガリズム、移民に伴う言語の変化、外来語などの研究をするためにスペイン語以外のデータを収集し、分析を続ける。また、南米の一部の地域のツイッターの普及率の低さなどの理由でデータの少ない地域について、調査をすることも検討している。 なお、テキスト処理(トークン化、見出し語化、テキストマイニング等)の技術を使いながら、他大学の共同研究者と研究を続ける予定である。
|
Causes of Carryover |
ツイッターの普及率の低い地域(南米の一部)でのフィールドワークの予定が延びたが、30年度中に実施する予定である。
|
Research Products
(9 results)