2017 Fiscal Year Annual Research Report

大規模なad-hocデータに対する高速処理基盤

Research Project

Project/Area Number	16H01715
Research Institution	The University of Tokyo
Principal Investigator	田浦健次朗東京大学, 大学院情報理工学系研究科, 教授 (90282714)
Project Period (FY)	2016-04-01 – 2021-03-31
Keywords	大規模データ処理 / ad-hocデータ処理 / LL(*)文法 / 構文解析生成系
Outline of Annual Research Achievements	研究項目 (A) Ad-hoc データに対する文法・問い合わせ記述言語設計: ad-hocな大規模データを高速に処理するためのデータ処理系として, 文法記述から高速な構文解析器を自動生成する処理系の研究を進めている.直感的で表現力の高い文法記述形式としてLL(*)文法に着目し, それを, 字句解析なしで文字単位で解析できる, スキャナレスな構文解析器の生成系を得ることに成功した. スキャナレスであることにより, 字句解析器と文法記述を同一の枠組みで行うことができ, 通常の文法記述の枠組みでは困難な, 埋込み言語(データの一部だけが別の文法---従って別の字句解析規則---に従っている言語)の解析にも用いることができる. これはad-hocなデータの処理に適した性質である. 研究項目 (B) Ad-hoc データ解析・問い合わせ並列化・ベクトル化アルゴリズム: 項目(A)で述べた構文解析器はスキャナレスであり, 文字単位処理の部分でベクトル化命令を用いた最適化が行われている. また, 構文解析自身は並列化されていないが, 構文の認識にともなうユーザアクションは並列化されている. 本処理系でJSON形式の文法を記述して評価を行った所, JSON専用のパーサRapidJsonと比較しても高速という結果が得られた. これにより, ad-hocなデータに対して文法を記述して解析するアプローチが利便性, 汎用性, 高性能を両立しうることを示すことができた. 現在, 構文解析自身を並列化する研究を進めている. 研究項目 (C) 並列化・ベクトル化共通基盤 : 昨年度に引き続き, ニューラルネットワークを用いたニューラル機械翻訳およびその並列化・ベクトル化を用いた高速化の研究を行った. 国際学会発表を行い, その後ジャーナルへの投稿推薦論文となった.
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 研究の中心的テーマである, 文法記述から高速な構文解析器を生成する, それによりad-hocな大規模データの高速処理に適用する, というテーマについて, 当初から期待していた成果が得られつつある. ニューラル機械翻訳の最適化についても得られた知見を元に新しい機械学習フレームワークへ一般化させようとしており, この部分は当初の予定を越えるテーマになっている. 構文解析器の並列化に関しては着手したところであり, 総合的には概ね順調である.
Strategy for Future Research Activity	研究項目(A)(B) : 構文解析そのものの並列化の研究を進めるとともに, 分散メモリ計算機による超並列処理や, 高速ストレージ(SSDや不揮発メモリなど)を用いて現実の大規模データからの超高速なデータ抽出処理での実証実験を目指す. 研究項目 (C) 並列化・ベクトル化共通基盤 : 新しい機械学習フレームワークの設計と実装を行う. そのフレームワークでは, 自動バッチングという(既存)手法をさらに発展・最適化させることを目指している. これによりユーザがひとつのサンプルに対する処理を記述するだけで, たとえそれらの処理の詳細が異なっていても, 自動的なベクトル化, 並列化が行われるとともに, メモリ参照の局所性が優れたスケジュリーングを行うことを目指している.

Research Products
(6 results)

All 2018 2017

All Journal Article (6 results) (of which Int'l Joint Research: 1 results, Peer Reviewed: 6 results)

[Journal Article] LL(*) 文法に基づくスキャナレス構文解析器の提案2018
- Author(s)
  井原央翔, 佐藤重幸, 田浦健次朗
- Journal Title
  
  xSIG 2018 workshop
  
  Volume: - Pages: -
- Peer Reviewed
[Journal Article] Parallelized software offloading of low-level communication with user-level threads2018
- Author(s)
  Wataru Endo and Kenjiro Taura
- Journal Title
  
  Proceedings of the International Conference on High Performance Computing in Asia-Pacific Region
  
  Volume: - Pages: 289-298
- DOI
  10.1145/3149457.3149475
- Peer Reviewed
[Journal Article] 低レイテンシ SSD をメモリ拡張として利用したときの性能評価2018
- Author(s)
  中澤弘樹, 田浦健次朗
- Journal Title
  
  xSIG 2018 workshop
  
  Volume: - Pages: -
- Peer Reviewed
[Journal Article] Cache friendly parallelization of neural encoder-decoder models without padding on multi-core architecture.2017
- Author(s)
  Yuchen Qiao, Kazuma Hashimoto, Akiko Eriguchi, Haixia Wang, Dongsheng Wang, Yoshimasa Tsuruoka, and Kenjiro Taura.
- Journal Title
  
  The 6th International Workshop on Parallel and Distributed Computing for Large Scale Machine Learning and Big Data Analytics
  
  Volume: - Pages: 437-440
- DOI
  10.1109/IPDPSW.2017.165
- Peer Reviewed
[Journal Article] Neural Machine Translation with Source-Side Latent Graph Parsing2017
- Author(s)
  Kazuma Hashimoto and Yoshimasa Tsuruoka
- Journal Title
  
  Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP 2017)
  
  Volume: - Pages: 125-135
- DOI
  10.18653/v1/D17-1012
- Peer Reviewed
[Journal Article] Learning to Parse and Translate Improves Neural Machine Translation2017
- Author(s)
  Akiko Eriguchi, Yoshimasa Tsuruoka, and Kyunghyun Cho
- Journal Title
  
  Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (ACL2017)
  
  Volume: - Pages: 72-78
- DOI
  10.18653/v1/P17-2012
- Peer Reviewed / Int'l Joint Research

2017 Fiscal Year Annual Research Report

大規模なad-hocデータに対する高速処理基盤

Principal Investigator

田浦 健次朗 東京大学, 大学院情報理工学系研究科, 教授 (90282714)

Current Status of Research Progress

Reason

Research Products

[Journal Article] LL(*) 文法に基づくスキャナレス構文解析器の提案2018

Author(s)

Journal Title

[Journal Article] Parallelized software offloading of low-level communication with user-level threads2018

Author(s)

Journal Title

DOI

[Journal Article] 低レイテンシ SSD をメモリ拡張として利用したときの性能評価2018

Author(s)

Journal Title

[Journal Article] Cache friendly parallelization of neural encoder-decoder models without padding on multi-core architecture.2017

Author(s)

Journal Title

DOI

[Journal Article] Neural Machine Translation with Source-Side Latent Graph Parsing2017

Author(s)

Journal Title

DOI

[Journal Article] Learning to Parse and Translate Improves Neural Machine Translation2017

Author(s)

Journal Title

DOI

田浦健次朗東京大学, 大学院情報理工学系研究科, 教授 (90282714)