2019 Fiscal Year Research-status Report
機械学習アルゴリズムのための離散データ上の関数に対する解析的最適化数理の構成
Project/Area Number |
17K19973
|
Research Institution | Kyoto University |
Principal Investigator |
山本 章博 京都大学, 情報学研究科, 教授 (30230535)
|
Co-Investigator(Kenkyū-buntansha) |
西野 正彬 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 特別研究員 (90794529)
|
Project Period (FY) |
2017-06-30 – 2021-03-31
|
Keywords | 離散構造 / 帰納論理プログラミング / 構文解析木 / pq-gram距離 |
Outline of Annual Research Achievements |
本研究は,自然言語データからの機械学習に対して,学習結果の意味解釈が難しいベクトルデータ表現を介ぜずに,言語データの持つ係り受け構造や構文木などの自然な構造を直接扱うための最適化数理を構築することを目的としている. 昨年度までに得られた研究成果として,帰納論理プログラミングとよばれる枠組みに則り,一階述語論理における確定節形式の論理式に対してて順序関係による完備束を定義した上で,機械学習の結果をBDDを用いた圧縮形で構成するアルゴリズムの開発を行った. 一階述語論理は,数学の文書を形式化することに端を発しているため,構文解析が一意に可能な文だけを対象とし,構文解析木を直接扱うようなデータモデルである.本年度は構文木構造を機械学習で扱う際に必要となる,木構造データ間の距離を用いた高速な機械学習アルゴリズムの開発を行った.木構造データ間の距離として,列構造データ間の編集距離を木構造データ間に拡張した編集距離の計算アルゴリズムを採用してしまうと,入力の木のノード数nの3乗オーダーの時間を要し,しかも昨年度の本課題の成果である列構造データ間の編集距離の計算の高速化の限界から,木構造データ間の編集距離計算の高速化には困難が伴うと予想された.そこで編集距離の代わりに, 木のノード数nに対して O(nlog n)で計算可能であるpq-gram距離を採用することとした.pq-gram距離を機械学習に導入するにあたって,学習アルゴリズムとして最近傍法を想定し, 入力として与えられる木の各部分木の重みを考慮した重み付きpq-gram距離を新たに定義した上で,最近傍法によって重み付きpq-gram距離を高速に計算するアルゴリズムを開発した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
一階述語論理を節形式論理に制限して順序関係による完備束を定義した上で,機械学習の結果をBDDを用いた圧縮形で構成するアルゴリズムをまとめた論文が国際会議に採択された.さらに構文解析を行わずに自然言語文を単語の列という構造のままで直接機械学習に用いるための編集距離計算の分析を行い,その成果をもとに文を構文解析した結果である木構造を用いた機械学習手法についてpq-gram距離を利用するという方針を設定した.最近傍法を利用するためにpq-gram距離を重み付きpq-gram距離に拡張し,距離そのものを学習する高速なアルゴリズムを開発した. これらの成果は,本件研究課題の当初からの目標である離散構造データを自然数に埋め込むことなく,距離の機械学習への応用という視点から離散構造データ全体がなす空間の幾何的構造を捉えた成果と考えている.離散構造データを自然数に埋め込むという操作は,データ間の「遠近」という機械学習にとって不可欠な情報を破壊してしまう.本研究の成果は,離散構造データ間の遠近を保持するものであり,その幾何構造は自然数空間上の位相やベクトル空間上のユークリッド距離などの既存の構造とは全く異なるはずである,という見込みを実現していると考えている.
|
Strategy for Future Research Activity |
研究成果の発表を予定していた学会・研究会がコロナ渦のための中止・延期となったため,研究機関を令和2年度まで延長し,改めて学術雑誌論文投稿も含めて,研究成果発表を行う計画である. これまでの研究成果は距離という幾何的構造に着目したものであった.幾何的構造は最近傍法などの分類問題に対して有効である.一方で,代数的構造として,Galois対応を利用した完備束解析を応用することにより離散データ解析の理論を深化させたい.これまでの研究代表者の研究成果により,代数的構造は述語(データ間の関係)間の順序関係に着目した知識発見に有効である,ということがわかっている.そこで,機械学習という文脈の上で,代数的構造と幾何的構造をどのように融合させるかが今後の課題である.列データにおける長さや,木構造データにおける木の様々なサイズパラメータとGalois対応の間の関係を明確にすることを目指すとともに,理論を見通しの良いものにしたい.
|
Causes of Carryover |
本年度の本研究の成果をまとめた論文が, 令和2年度開催の国際会議ECAI2020に採択されたため,その渡航費用と参加費用を保持しておく必要が生じた.さらに,年度内3月に開催の国内研究会でも結果の一部を報告する計画であったが,その研究会もコロナ渦のため中止となったため,令和2年度開催の研究会に改めて発表の機会を持つ計画であり,そのための旅費を保持する必要が生じたため.
|
Research Products
(3 results)