2017 Fiscal Year Research-status Report
分野オントロジと大量文書に対する統合埋め込みベクトル構築
Project/Area Number |
17K00318
|
Research Institution | Toyota Technological Institute |
Principal Investigator |
佐々木 裕 豊田工業大学, 工学(系)研究科(研究院), 教授 (60395019)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 埋め込みベクトル / オントロジ / グラフ埋め込み / WSD |
Outline of Annual Research Achievements |
word2vec等を用いたニューラル言語学習は,近年の言語処理に大きなインパクトを与えた.Wikipedia等の大量の教師なし文書情報からword2vec等により単語等の埋め込みベクトルを求めることで,単語等の類似度を頑健・高精度に計算することが可能になった.本研究は,これを発展させた記号・ニューラル学習法を考案し,半教師あり学習により,知識ベース中の記号的構造情報と文書等の非構造化情報を統一的に扱える枠組みを開発することを目的とする.これまで提案者らは,シソーラスの構造情報を用いて,単語の対義語関係や上位・下位語関係のベクトル表現を学習する先駆的な研究を行ってきた.本研究では,これらの研究を発展させ,文書中の情報と知識ベース中の概念構造を統合埋め込みベクトル空間に写像し,照合を可能にすることを目標としている. 2017年度は,関連分野の研究の動向にあわせて計画より先行して,オントロジの構造を利用した埋め込みベクトルの構築法を開発した.最初の段階として,特にsubClassOf 関係(上位・下位関係)に焦点を当てて,埋め込みベクトルの構築法を探究した. 具体的には,word2vecは文書に出現する単語に埋め込みベクトルを割り当てる手法であるが,これを拡張して,文書から埋め込みベクトルを作成するのと同時に,単語に対応する上位概念にも埋め込みベクトルを作成する.これにより,大量の教師なし文書を用いて,オントロジのクラス名に対応する埋め込みベクトルを計算することができる.評価方法としては,Word Senese Disanbiguation (WDS) のデータセットを対象に,単語の埋め込みベクトルと概念クラスの埋め込みベクトルの類似度から,WDSの問題が解けることを確認した.また,並行して,評価用のデータセットとして利用するため,交通文書に対するアノテーションを実施した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2017年度の研究項目として,(1)ベンチマークテストセットの構築,(2)ベンチマークテストセットによる評価実験,の2つを計画していた. 前者は,ベンチマークテストセットとして,交通教則の内容を表す分野オントロジを構築するものである.オントロジの作成のベースとして,文書へのアノテーションツールBratを使用し,交通教則にアノテーションしたコーパスを作成した.一方,オントロジの作成は,他の研究を繰り上げて実施した関係で,オントロジの作成は予定より遅れている.この影響で,ベンチマークテストセットによる評価実験も2018年度の研究テーマとした. 一方,現在,深層学習関連の研究が急速に進んでおり,本研究が対象とした,知識構造に対する埋め込みベクトルの作成の研究も予想よりも早く展開している.そこで,本研究においても,計画より先行して,概念構造の埋め込みベクトルの構成法の研究に取り組んだ.特に,大量の文書と概念構造の双方を利用した概念クラスの埋め込みベクトルの作成方について研究した. 評価データの整備ができていないため,既存のテストセットを利用することとした.具体的には,英語のWord Sense Disambiguationのデータを用いて,構築した概念クラスの埋め込みベクトルによりWSDの問題がどの程度解けるのかを評価した.ここで,WSDのデータを用いたのは,知識構造の埋め込みベクトルの評価のためであって,WSDを解くことが最終目標ではない.文書情報と文書に出現する単語に対応するオントロジの概念に対する埋め込みベクトルを同時に学習ことが可能であり,その性能がどの程度であるかを確認することを目的としている.
|
Strategy for Future Research Activity |
2018年度は,先行して進めた,オントロジの上位下位関係に対する埋め込みベクトルの構築の研究を継続し,オントロジの構造を利用した埋め込みベクトルの構築法を開発する.subClassOf 関係,subPropertyOf関係,および属性の関係を利用し,文書にアノテートされたオントロジ関係と埋め込みベクトルの加法構成性を利用し,埋め込みベクトルを構築する.たとえば,オントロジ中に<king>と<queen>の関係であれば,<king>に対応する埋め込みベクトルの更新時に<king>の上位の<human>の埋め込みベクトルも更新するとともに,<king>-<hasGender>-<man>の更新の際に,上位の属性関係<human>-<hasGender>-<gender>に対応する埋め込みベクトルも更新する.さらに,属性関係に基づく埋め込みベクトルの構成性による上位・下位クラスの埋め込みベクトルの更新も同時に行うことで,アノテートされた文書中に現れないオントロジ上の属性関係の埋め込みベクトルの更新を可能にする. また,2017年度に作成を開始した評価用オントロジの構築を継続し,最終年度での評価実験に備える.既に,大量の教師なし文書をベースにして,オントロジの概念クラスに埋め込みベクトルを与えることに成功しているが,オントロジと単語のマッチングを行う場合に埋め込みベクトルの値の計算を行うことで網羅性能の向上を図る.ただし,大量文書とオントロジクラス名のマッチングでは,大量のノイズが含まれる可能が高く,頻度情報や単語の埋め込みベクトル間の距離等を利用することで,ノイズの影響を抑える. また,埋め込みベクトルの超並列計算のため試行的な実装実験を行う.
|
Causes of Carryover |
初年度にGPUを搭載した学習用計算サーバーの導入を予定していたが,予定していたGPU NVIDIA TITAN Xの出荷が停止したことで,予定の機種が購入できなかった.後継の TITAN Vの国内提供が年度内には行われなかったため購入を遅らせた.本研究課題は,既設の設備を用いて問題なく実施した.今後の研究計画に影響がでないように,2018年度の初めにサーバーの購入を実施する.
|