2016 年度実績報告書

ハッシュ法を統合した多様で大規模な言語データの解析技術に関する研究

研究課題

研究課題/領域番号	26730126
研究機関	日本電信電話株式会社NTTコミュニケーション科学基礎研究所
研究代表者	林克彦日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 研究員 (50725794)
研究期間 (年度)	2014-04-01 – 2017-03-31
キーワード	ハッシュ法 / 低ランク近似 / 分枝限定法
研究実績の概要	最終年度では「文書の構造処理」、「高速なK-best構造予測アルゴリズム」、「低次元埋め込みモデル」に関する研究を行った。「文書の構造処理」では文書を修辞構造木と呼ばれる構造に変換する技術について研究を行った。これは文書要約や文書データマイニングなどに応用される。この課題では文書のような長い系列を効率的に処理する仕組みが必要とされるため、統計モデルの特徴量表現をハッシュ化し、また、探索中に発生する冗長な解をハッシュ法で取り除く技術を開発した。その結果、英語の新聞記事に対する修辞構造木を精度の低下なく平均0.05cpu秒で解析することを可能とし、文書要約システムの高速化に大きく貢献した。「高速なK-best構造予測アルゴリズム」では文の句構造や文書の修辞構造解析の最適な上位K個の解を高速に求めるアルゴリズムを考案した。信頼性の高いK個の解を高速に求めることで、機械翻訳や文書要約などの精度や速度向上を可能にする。ここでは分枝限定法をK-best構造予測問題に応用することで高速化を可能にした。「低次元埋め込みモデル」では知識グラフなどのラベル付き有向グラフを低ランク近似するための分解法について理論的な分析を行った。知識グラフは情報抽出、セマンティックウェブ、質問応答などへの応用が期待されている。低ランク近似モデルでは知識グラフをそのentityやrelationに関する行列に分解し、低次元ベクトルに埋め込んだ上で、内積などのベクトル演算を使ってentity間のrelationをスコア化する。このスコアは単純にはリンク予測問題に使われ、情報抽出や質問応答にも拡張することができる。ここでは複素数を使った埋め込み法が従来法と比較して、低次元、高速、かつ、高精度であることを理論的に分析した。

研究成果
(5件)

すべて 2017 2016

すべて学会発表 (4件) (うち国際学会 3件、招待講演 1件) 産業財産権 (1件)

[学会発表] On the Equivalence of Holographic and Complex Embeddings for Link Prediction2017
- 著者名/発表者名
  Katsuhiko Hayashi, Masashi Shimbo
- 学会等名
  The 55th Annual Meeting of the Association for Computational Linguistics
- 発表場所
  バンクーバー
- 年月日
  2017-07-31 – 2017-08-02
- 国際学会
[学会発表] 知識グラフの埋め込みとその応用2017
- 著者名/発表者名
  林克彦
- 学会等名
  千葉工業大学ステアラボ人工知能セミナー
- 発表場所
  東京
- 年月日
  2017-06-23 – 2017-06-23
- 招待講演
[学会発表] K-best Iterative Viterbi Parsing2017
- 著者名/発表者名
  Katsuhiko Hayashi, Masaaki Nagata
- 学会等名
  The 15th Conference of the European Chapter of the Association for Computational Linguistics
- 発表場所
  バレンシア
- 年月日
  2017-04-05 – 2017-04-07
- 国際学会
[学会発表] Empirical comparison of dependency conversions for RST discourse trees2016
- 著者名/発表者名
  Katsuhiko Hayashi, Tsutomu Hirao, Masaaki Nagata
- 学会等名
  The 17th Annual Meeting of the Special Interest Group on Discourse and Dialogue
- 発表場所
  ロサンゼルス
- 年月日
  2016-09-13 – 2016-09-15
- 国際学会
[産業財産権] 単語学習装置、単語学習方法及び単語学習プログラム2017
- 発明者名
  林克彦、新保仁、永田昌明
- 権利者名
  林克彦、新保仁、永田昌明
- 産業財産権種類
  特許
- 産業財産権番号
  2017039543
- 出願年月日
  2017-03-02

2016 年度 実績報告書

ハッシュ法を統合した多様で大規模な言語データの解析技術に関する研究

研究代表者

林 克彦 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 研究員 (50725794)

研究成果

[学会発表] On the Equivalence of Holographic and Complex Embeddings for Link Prediction2017

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 知識グラフの埋め込みとその応用2017

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] K-best Iterative Viterbi Parsing2017

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Empirical comparison of dependency conversions for RST discourse trees2016

著者名/発表者名

学会等名

発表場所

年月日

[産業財産権] 単語学習装置、単語学習方法及び単語学習プログラム2017

発明者名

権利者名

産業財産権種類

産業財産権番号

出願年月日

2016 年度実績報告書

林克彦日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 研究員 (50725794)