2016 Fiscal Year Research-status Report
基礎語彙を含む多次元尺度による言語系統分類自動補完のための系統樹生成手法の開発
Project/Area Number |
15K00477
|
Research Institution | Yamaguchi Junior College |
Principal Investigator |
呉 靭 山口短期大学, 情報メディア学科, 准教授 (70708015)
|
Co-Investigator(Kenkyū-buntansha) |
乾 秀行 山口大学, 人文学部, 准教授 (10241754)
松野 浩嗣 山口大学, 創成科学研究科, 教授 (10181744)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 言語系統分類 / 言語系統樹 / 基礎語彙 / 言語特徴 / 言語素性 / 言語間距離 / ファイ(φ)係数 / ランダムフォレスト |
Outline of Annual Research Achievements |
基礎語彙の類似度を計算するため、文字列類似度手法として、編集距離以外に、Jaro-Winkler距離についても検討を行った。また、言語間距離の計算において、基礎語彙に加えて、言語の形式的な特徴を表す言語素性も要因として取り入れることにした。そのため、まず言語学分野で研究されている多くの言語特徴のなかで、どのような言語特徴がより強く言語の分類に影響を与えている可能性があるかについての分析を行った。言語を特徴づける言語素性のデータとして、一般的に公開されているWALS(The World Atlas of Language Structures)を使い、ランダムフォレストによる特徴量抽出の手法を応用し、言語素性の重要度を計算し、言語分類に影響をもたらすと考えられる素性の選択を行った。そのうえで、編集距離およびJaro-Winkler距離のそれぞれに言語素性を組合せて基礎語彙の類似度、さらに言語間距離の計算を行い、実験を行った。この二つの方法のいずれについても言語特徴を考慮することが有効といえるような結果が得られた。なお、Jaro-Winkler距離が編集距離に比べてより効果的である、またはその逆の結論を示す結果は得られていない。 また、基礎語彙の類似度ならびに言語間距離の計算精度を上げるため、発音記号間の相関関係の定量化について調査・研究を行った。ある特定の意味についての基礎語彙の先頭と末尾の子音の変化ついて、ある語派における祖語から各派生言語への変化の数をカウントし、ファイ(φ)係数を使い相関係数を算出する手法を提案した。ASJP( Automated Similarity Judgment Program)と呼ばれる基礎語彙データが提供しているインド・ヨーロッパ語族のゲルマン語派のデータを使い実験したところ、強い相関を示す音声記号の発見までには至っていない状況である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成29年度の研究実施計画に掲げている「(8) 多次元的尺度に基づく言語系統樹の生成方法の開発」について前倒しで研究を始め、成果が得られ、研究会等において発表を行った。また、平成28年度の研究実施計画に掲げている、「(5) 発音の近さを考慮した基礎語彙の類似度に基づく言語間距離の計算モデルの開発」については、前年度から始まった研究を継続し、さらに掘り下げて研究を進め、途中結果をまとめて研究会等で発表を行ったが、実験データ不足によりさらなる理想な結果を得るまでには至らず、課題として残した状況。「(6) 言語系統樹生成における生物進化系統樹推定手法の適合性の検討」については、前年度にすでに開始し、一部成果が得られている状況で、今後もさらに実施していく予定。一部の計画を前後して実施しているところがあるが、全体としては、おおむね順調に進展しているといえる。
|
Strategy for Future Research Activity |
「発音の近さを考慮した基礎語彙の類似度に基づく言語間距離の計算モデルの開発」について、音声記号間の相関係数を求めるため、主にファイ(φ)係数等の統計的手法を用いていた。統計という性質上、一定数の標本(言語)が必要であるが、データ不足がネックとなり、大きな進展が得られず、足踏みの状況にあった。基礎語彙の比較研究において原点ともいえる音声の変化に立ち戻り、言語学分野である音韻論の観点から、すでに得られている成果を基礎語彙の比較に取り入れることに方向づけていく。具体的には、諸言語の弁別的素性についての資料の調査、収集およびデータ整理を行う一方、弁別的素性による音声記号間の相関関係の定量化手法を考案し、現在の計算モデルに取り入れていく。また、基礎語彙の弁別的素性以外の言語特徴による影響についてさらに調査し、それらによる総合的な影響を導き出し、より高精度に言語系統樹を生成する手法を開発していく。
|
Causes of Carryover |
平成28年度の次年度使用額(前年度繰越金を含む)として、研究代表者の呉(山口短期大)には24万円、研究分担者の乾(山口大)には30万円、研究分担者の松野(山口大)には42万円、とそれぞれ生じている。次年度使用額が生じた主な理由としては、(1) 基礎語彙と言語属性の資料の調査・収集およびデータ整理等のための人件費等として使う予定の予算が、整理する資料が予想より少なかったことや、代替え案として一部公開されているデータを使用することにしたため、使う必要がなくなったこと(研究分担者の乾と松野)、(2) 成果発表の旅費または論文掲載料等が予定より少なかったこと(研究代表者の呉と研究分担者の松野)、が挙げられる。
|
Expenditure Plan for Carryover Budget |
平成28年度において生じた次年度使用額を、 (1) 言語の弁別的素性に関する調査、(2) それに伴うデータ整理、(3) 研究会等での発表、を中心に使用する。なお、研究代表者の呉(山口短期大)は(1)と(3)、研究分担者の乾(山口大)は(1)と(2)、研究分担者の松野(山口大)は(2)と(3)を実施するために、それぞれ予算を使用する予定。
|