我々の研究班では、実際の言語やゲノムなどの人類学的データの解析を通じ、ヒトの言語が階層性と意図共有を可能にしている、ヒト言語の進化史と進化メカニズムを解明することを目的とした。進化生物学の立場からすると、多様性と普遍性は表裏の関係にある。多様性は過去の進化の痕跡を残すのみならず、次世代の進化の原動力にもなり得るし、多様性の幅から進化の普遍性を見出すことにも繋がる。そこで、言語の多様性を表記している、実際の言語のデータベースを見てみると、実態は複雑な因子が絡み合った巨大な行列(テーブル)データになっていることがある。こうした実際的なデータの取り扱いについては、データ科学が得意な課題である。そうした視点から、言語の多様性をデータ科学的視点に基づいて解析することを検討した。 主に比較言語学(類型論)のデータベースを利用した言語解析の手法の開発を行った。データの性質として、言語の因子を羅列した巨大な行列データをどのように処理するのが適切か、という課題があった。また先行研究では系統樹的な表現手法は言語間の関係を可視化するのに、解釈の誤解を招く可能性があるので、別の手法を取り入れたいという課題があった。そこで、ネットワーク科学や機械学習の方法を取り入れ、言語の類似性の指標を新たに設計した。領域の海外招待講演者らとも議論を重ねたところ、概ね方向性が良さそうであることが分かったため、論文投稿に向けて取り組んでいる。 さらにこれまで行ってきた、ゲノムから見た人々の歴史と言語の類似性関係について、新たな民族集団のゲノムと言語のデータを追加して解析した。その結果、新しい知見を得たため、論文投稿を準備中である。 言語のデータ解析は世界的に見ても始まったばかりであるが、豊富なゲノムデータと併せて、具体事例を元に解釈していくことで、言語独自の多様性と普遍性の進化を解きほぐすための礎になった。
|