2016 Fiscal Year Research-status Report
Project/Area Number |
15K02527
|
Research Institution | Sophia University |
Principal Investigator |
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | スペイン語学 / 変異言語学 / コーパス言語学 / 方言学 / 方言地図作成 / ソーシアルメディア |
Outline of Annual Research Achievements |
本プロジェクトの目的はスペイン語の変異言語学的な研究で、そのアプローチとしてインターネット上のソーシアルメディア(ツイッター)のデータをプログラミングで自動的に収集し、必要なマクロコーパスを作成してきた。専用のデータベースに関してはSQL系(MySQL)とNoSQL系(Elastic Stack)を両方テストし、目的により使い分けることにした。このような方法で集めたデータによってスペイン語の具体的な語彙と文法のバリエーションの共時的な研究が可能になった。例えば、語彙のバリエーションとしてはメキシコのahorita、chavo、ベネズエラのchamoなど、またはアルゼンチンではa mi lado es un porotoのような独特な言い回しを地理的な分布と用法についても調べることができた。 SQL系のデータベースに収集したすべてのデータ(スペイン語のみ)に発信地の経度と緯度が入っているので、GIS(地理情報システム)の技術を使い、バリエーションの分布を表示するためにデジタル言語地図を作成し始めた。また、米国のスペイン語と英語の接触、あるいはスペインのスペイン語とカタルーニャ語の言語接触の現象を研究するために、可能な範囲で他の言語もNoSQL系のデータベースで蓄積した。現在までSQL系で3000万件以上のツイートを、NoSQL系で2000万件以上のツイートが蓄積されており、研究の成果を複数の学会で発表することができた。 また、このような方法論で研究しているバルセロナ大学のカタルーニャ語の研究者と共同研究をすることにより、スペイン語圏の二か国語併用の地域の問題点を研究している。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
(理由) 現在まで、ツイッターのAPIから取集し、SQL系のデータベースに蓄積した件数は3000万件(訳3.2億語)以上で、NoSQL系では英語など他言語も含め2億件以上、スペイン語では2200万件以上で、それぞれの専用データベースで管理している。また現在も常にデータを蓄積し続けている。データの検索は正規表現などを利用し、CSV、SQL、JSONなど複数のフォーマットで出力することができる。そうすることによりExcel、GIS系などのソフトで読み込み、さらに自然言語処理が可能になった。テキストの処理は一般的なAntConcのようなソフトで処理し、地理情報はQGISで処理することもできた。また、NoSQL系のデータベースに入っている地理情報はKibanaという可視化用のソフトで素早く処理するもできた。 さらに、reverse geocodingというGISの高度な技術を利用し、経度・緯度の情報が入っていないツイッターのuser.locationを計算し、分布地図で表示できる件数は20倍ほど増えた。
|
Strategy for Future Research Activity |
変異言語学では頻度の高い現象だけでなく、頻度の低い語彙、文法的な特徴も必要になるので、今後もデータを収集し続ける。言語接触、バイリンガリズム、移民に伴う言語の変化、外来語などの研究をするためにスペイン語以外のデータを収集する。特にスペインのカタルーニャ語、ガリシア語と米国の英語を注目したい。また、南米のツイッターの普及などの理由でデータの少ない地域について、調査をすることも検討している。 29年度中に研究の方法論の他に語彙と文法のバリエーションを続ける予定である。 ツイッターのデータを利用して分析しているスペイン語圏の研究者と共同研究を続ける予定である。28年度に実験的にこのような研究方法論のワークショップを2つ行ったが、このような活動もさらに続けたいと計画している。
|
Causes of Carryover |
購入する予定のGISとNoSQLの専門書)の出版が遅れた。
|
Expenditure Plan for Carryover Budget |
29年度中に出版が遅れた専門書を注文する。
|
Research Products
(8 results)
-
-
-
-
-
-
-
-
[Book] Lexico dialectal y lexicografia en la Iberorromania2017
Author(s)
Ruiz Tinoco, A; Ueda, H; Alvarez, M; Gonzalez, E; Julia, C; Garcia Mouton, P; Fajardo, A; Zimmermann, K; Perea, M.P.; Aliaga, J.L.; Gonzalez, J.A.; Carriscondo, F.M.; Corbella, D; Huisa, J.C.; Viejo, X; Le Men, J; Almeida, I; Negri, A; Colon, G; Garriga, C; Werner, R; Sanchez, M.D.; Saramago, J; de Almeida, C.
Total Pages
印刷中
Publisher
Iberoamericana Vervuert