研究課題/領域番号 |
26730122
|
研究機関 | 京都大学 |
研究代表者 |
村脇 有吾 京都大学, 情報学研究科, 助教 (70616606)
|
研究期間 (年度) |
2014-04-01 – 2018-03-31
|
キーワード | 言語類型論 / ベイズ統計 / 言語系統論 / 表現学習 |
研究実績の概要 |
本研究では、統計的手法による言語の歴史的変化と言語間の系統関係の推定を目的としており、特に従来の統計的手法が適用できない日本語の問題の解決を試みている。3年目となる本年度は、昨年度の成果を踏まえ、言語類型に基づく取り組みに重点をおいて、主に2つの課題に取り組んだ。第1に、これまでの研究で接触による語彙伝播の空間構造のモデル化を行ったが、類型論的特徴についても同様に接触による伝播が考えられ、系統推定上さまたげとなる問題である。類型論的特徴は、語彙とくらべると、そもそも借用であるか否かが自明でないという点でも挑戦的である。そこで、縦の (系統的な) 関係による影響と横の (空間的な) 関係を解きほぐし、それらの影響の度合いを定量化するための確率的統計モデルを提案した。既存の言語類型論のデータは欠損値が多いという点でも挑戦的だが、こうしたデータに対しても頑健にパラメータ推定が行えるような頑健な推論アルゴリズムを考案した。第2に、昨年度取り組んだ、言語を潜在空間上で表現するモデルは欠損値に弱く、あらかじめ別の手法で欠損値補完を行ったデータが必要となるという課題があった。そこで、不確実性への頑健性で知られるベイズ統計を用いた新たなモデルを考案し、欠損値と潜在空間表現の同時推定を実現した。このモデルは推定すべきパラメータが非常に多く、ナイーブな推論手法では現実的な時間内に収束しないという点で挑戦的だが、勾配を用いた効率的なブロックサンプリング手法を適用することで、この課題を克服した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究課題も3年目に入り、当初の計画ではほとんど考慮していなかった、言語類型に基づく取り組みが予想外に大きな成果を上げつつあることから、この取り組みに研究の重点を置くように変更を行った。その意味において、当初の計画に基づく区分はあまり意味をなさなくなりつつあるが、予算規模に比して大きな研究成果が挙げられているという点では順調に進展しているといえる。
|
今後の研究の推進方策 |
最終年となる4年目には、主に以下の2つの課題に取り組みたい。第1に、3年目に取り組んだ、縦の (系統的な) 関係による影響と横の (空間的な) 関係を解きほぐし、それらの影響の度合いを定量化するための確率的統計モデルとその推論アルゴリズムは、言語類型論のデータを分析するために提案したものだが、その他の言語データや、言語にとどまらない文化的特徴に広く応用できる可能性を秘めている。そこで、このモデルの拡張を検討し、その成果を研究コミュニティに提供したい。第2に、やはり3年目に取り組んだ、言語を潜在空間上で表現するモデルでは、表層的特徴に見られる系統的、空間的シグナルが、潜在空間表現に変換すると消えるという現象を確認している。おそらく探索空間が多峰性を持ち、表層的特徴列を説明できる潜在表現は無数に存在する。その中で解釈性の高い表現を選ぶには手がかりとして何が必要かを明らかにしたい。
|
次年度使用額が生じた理由 |
残額が小さく有効利用が難しかったため。
|
次年度使用額の使用計画 |
書籍の購入。
|