本研究では、統計的手法による言語の歴史的変化と言語間の系統関係の推定を目的としており、特に従来の統計的手法が適用できない日本語の問題の解決を試みている。最終年度にあたる本年度は、昨年度の成果を踏まえて言語類型に基づく統計的手法の開発に重点を置いた。昨年度提案した縦の (系統的な) 関係による影響と横の (空間的な) 関係を同時に考慮する統計モデルと、同じく昨年度提案した言語を潜在空間上で表現する統計モデルを統合した統計モデルを提案した。これにより、後者単独のモデルにおいて生じていた、表層的特徴に見られる系統的、空間的シグナルが潜在空間表現に変換すると消えるという現象が相当程度解消され、得られた潜在表現が単なる統計処理の産物ではなく、実際に何らかの歴史的意味を持つことが期待できるようになった。その結果を定量的に分析し、人間に解釈可能な形で提示する手法の開発にも取り組み、最初の結果を得たが、本格的な分析は今後の課題として残った。 研究期間全体を通じて見ると、当初検討していた日本語内部の変異については、まずは先行研究の問題点の解明を行った。データが系統樹モデルの仮定に従っていないと予想されたが、系統樹をこえる自由度の高いモデルを少量のデータに適用するのは難しい。本研究ではシミュレーションによる探索的説明 (仮定に反したデータにモデルがどのように騙されるか) を行った。また、主成分分析により系統推定の失敗が鮮やかに可視化できることを発見した。しかし、先行研究に代わる新たなモデルの提案には至らなかった。今後の課題としたい。
|