2020 Fiscal Year Annual Research Report
生物進化・文化進化の理論を応用した言語の拡散・分布の解析
Project/Area Number |
20J13493
|
Research Institution | The University of Tokyo |
Principal Investigator |
高橋 拓也 東京大学, 理学系研究科, 特別研究員(DC2)
|
Project Period (FY) |
2020-04-24 – 2022-03-31
|
Keywords | 文化進化 / 言語地理学 / ネットワーク理論 / 集団遺伝学 |
Outline of Annual Research Achievements |
集団間に文化形質がどのように伝達・拡散するかをモデル化するために、集団を頂点(node)・文化伝達を辺(edge)とするネットワークを作成して、各頂点から各頂点に文化形質が伝達する速度や、各頂点のネットワーク全体における重要さ(中心性)を定量化した。具体的には各頂点において新しい形質が発明される頻度と、集団間に形質が伝達する頻度を与えて(それぞれベクトル・行列で与える)、各種の統計量を解析的に得た。ランダムネットワークを用いてシミュレーションを行うことで、既存のネットワーク理論の中心性との相関を解析した。 本数理モデルを日本語方言の地理的分布に応用して、方言がどのように伝達するかを実証データも併せて解析した。まずは実証データとして日本言語地図データベース(LAJDB)に収録された語形データを用いて言語地図の各調査地点間の言語距離を測定した。次に調査地点を頂点としたネットワークを用いて、各調査地点の地理的位置関係や人口に基づいて調査地点間の文化形質(ここでは方言)の伝達率を設定して、本ネットワークモデルに基づいたシミュレーションを行った。各地点を占める語形をコンピュータで発生させた文字列で表して、文字列の伝達・発明・変異をシミュレートして、その結果に基づいて地点間の言語距離を計算した。 実証とシミュレーションの言語距離を比較することで数理モデルのパラメータ推定を行って、語形の伝達の起こる距離・新語が発明される頻度・既存の語形に変異が入る頻度を推定した。 本研究は文化進化のダイナミクスをネットワーク理論を用いて解析した点に新規性があり、重要である。また方言分布に関して地理的距離と言語距離の関係を調査した先行研究が多くみられるが、本研究は文字列の伝達をシミュレートすることでこれを再現した点において意義がある。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本研究における主な作業は数理モデルの作成・解析、方言の伝達のシミュレーション、実証データの解析であるが、どの点においても順調に進んでいるため、全体としては当初の計画以上に進展している。 数理モデルの解析に関して、ネットワーク上の文化形質の伝達に基づいて、各集団によって発明された形質が各地点にどの程度の頻度で存在するかを定量化して、さらに集団間の文化伝達にかかる時間を定量化した。本内容は現在は査読付き国際誌に投稿し、査読後の改定を行っている。 方言の伝達のシミュレーションに関しても順調に進んでいる。当初はシミュレーションのコーディング及び実行に時間を要するのではないかと考えられたが、コーディングは予想よりも簡単に行うことができた。また実行時間に関してもアルゴリズムを工夫して、ハイスペックPCで行うことで十分に実用的な時間で行うことができている。 実証データの解析に関して、日本語方言を収録した日本言語地図データベースの解析は順調に行っている。また当初予定していた外国語(特に仏語)の方言調査はコロナウイルスの影響で渡航が困難になったために行えていないが、オンラインで利用可能なデータベースの解析を行うことを検討している。現在は外国語における方言のデータベースを幅広く探しており、この点は順調に進んでいる。 また論文・学会発表に関して、本年度内に日本語方言に関するネットワークモデルを用いた解析を査読付き国際誌において公表した。それ以外にも前述した数理モデルの論文を国際誌に投稿後、改訂を行っており、さらにもう一本の論文を現在投稿に向けて準備中である。また日本語方言の実証データの解析と、シミュレーションに関しては査読付きの国際学会で口頭発表した。業績面でも十分に成果を挙げている。
|
Strategy for Future Research Activity |
はじめに、より現実の地理的条件に近づけたネットワークを用いて解析を行う。これまでの研究では日本言語地図データベース(LAJDB)の調査地点を頂点(node)とするネットワークを用いてシミュレーションを行ったが、これでは調査地点以外で発明・伝達する方言を考慮に入れることができず、調査地点の密度によって結果が変わる恐れがある。今後は日本全国に等間隔で与えた格子点を頂点とするネットワークを作成してシミュレーションを行うものとする。 次に、これまでは実証データとして日本言語地図データベースに基づいて解析を行ったが、外国語の方言データに基づいて実証及びシミュレーションの言語距離を比較することで、外国語の方言における数理モデルのパラメータ推定を行う。推定されたパラメータ(伝達の起きる距離・新語発明率・変異率)と日本語のものを比較して、両者の相違や共通点を見出しその言語的・社会的要因を考察する。本研究に関してはオンラインで公開されたデータベースを解析することによって行う。 さらにネットワークモデルに基づいて、2地点で用いられている言葉が共通祖先に由来する確率を地点のペアごとに計算する数式またはアルゴリズムを開発する。共通祖先に由来する語形は同根語(cognate)と呼ばれ、言語地図においても一字違い程度の非常に類似度の高い複数の語形が非常に多く見られ、比較的少数の同根語のグループに多数の語形が存在することがわかる。ここでは地点のペアごとに共通祖先に由来する確率を計算して、データベースに基づいた同根語のグループと比較する。 2021年度は昨年度の結果を発表することにも大きなウェイトを置く予定であり、現在投稿中の論文の改定や準備中の論文の投稿・及び広く学会発表を行う。
|
Research Products
(2 results)