研究課題/領域番号 |
17K19973
|
研究機関 | 京都大学 |
研究代表者 |
山本 章博 京都大学, 情報学研究科, 教授 (30230535)
|
研究分担者 |
西野 正彬 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 特別研究員 (90794529)
|
研究期間 (年度) |
2017-06-30 – 2021-03-31
|
キーワード | 文脈自由言語 / 一階述語論理 / 木構造データ / 文字列データ / 距離計算 |
研究実績の概要 |
本研究は,自然言語データからの機械学習に対して,学習結果の意味解釈が難しいベクトルデータ表現を介ぜずに,言語データの持つ係り受け構造や構文木などの自然な構造を直接扱うための最適化数理を構築することを目的とする.既存の離散最適理論の多くは自然数を対象にしているが,理論上はすべての離散構造は自然数に埋め込めるものの,それでは学習結果に意味解釈可能性を与えるという本研究の動機を達成しない. 本研究の成果として,自然言語データのモデルの一つである文脈自由言語について,与えられた語または文を導出するすべての構文木を圧縮形であるZDDを用いて構成するアルゴリズムを開発した.一階述語論理言語について,節形式論理に制限して順序関係による完備束を定義した上で,機械学習の結果をBDDを用いた圧縮形で構成するアルゴリズムの開発を行った.文脈自由言語と一階述語論理の言語には,それぞれ形式言語理論と数理論理学による意味が厳密に与えられているので,学習結果もまた形式言語理論と数理論理学を用いて解釈することが可能である. さらに,木構造データ間の距離を高速な距離の計算方法としてpq-gram距離を採用し,入力として与えられる木の各部分木の重みを考慮した重み付きpq-gram距離を新たに定義した上 で,最近傍法によって重み付きpq-gram距離を高速に計算するアルゴリズムを開発した. 自然言語データを構文解析を行わずに直接扱うようなモデルについては,列の長さに着目した新たな順序構造を定義した上で,機械学習アルゴリズムの設計を行った.アルゴリズムは動的計画法に基づく最適化アルゴリズムと なっている.さらにこのアルゴリズムは,最近提唱され注目されている強指数時間仮説(SETH)を認めれば,これ以上の改良が困難であることも示した.
|