2016 Fiscal Year Annual Research Report

大規模なad-hocデータに対する高速処理基盤

Research Project

Project/Area Number	16H01715
Research Institution	The University of Tokyo
Principal Investigator	田浦健次朗東京大学, 大学院情報理工学系研究科, 教授 (90282714)
Project Period (FY)	2016-04-01 – 2021-03-31
Keywords	大規模データ処理 / ストリーム処理 / 解析表現文法 / ニューラル機械翻訳 / 再帰型ニューラルネットワーク
Outline of Annual Research Achievements	本年度は, ad-hocデータ処理系の設計と初期的な実装を行った. 実装した処理系をpegparserと称する. pegparserは, ad-hocなデータから抽出したいパターンを記述する文法記述と, 抽出されたデータに対する問い合わせ(query)を入力とし, そこからその文法に対する構文解析器を生成し,マッチした部分に対する問い合わせの実行までを行う. 文法記述として, 解析表現文法 (PEG) を用いた. 構文解析器の生成にはPEGTLライブラリを用いた. pegparserでは, 文法中に現れる非終端記号をクエリ中で指定して, SQL風の問い合わせ言語で問い合わせを行うことができる. 評価のための例題として, 以下の二つのタスクを例として用いた. (1) wikidataのダンプファイル(94GBのjson形式)から小説家の名前を列挙する; (2) GDELTの2004年度のtsvデータから日本に関する情報を抜き出す; 前者に対して, jsonの解析に用いられ, 高速性に定評のあるrapidjsonとの比較を行った. rapidjsonはjson形式のファイルに特化した構文解析器であることに注意されたい. rapidjsonはストリーム処理(SAX)型と木構造構築(DOM)型をサポートしている. 前者は処理系によるメモリ消費が少なく, 単純な解析であれば高速に実行できるが, ある程度以上複雑なパターンマッチを行う場合はユーザの負担が大きい. 後者はメモリ消費量が大きく, とくに物理メモリ容量を上回る処理の実行は困難である. Pegparserは, 宣言的な問い合わせ記述と省メモリな実行方式を両立させ, 実行速度もrapidjsonのSAX型パーザーと比較して30%程度の低下にとどまることが確認できた.
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 初年度の目標として掲げていた点については達成している. 研究項目 (A) 「Ad-hoc データに対する文法・問い合わせ記述言語設計」に関しては, 文法記述と宣言的なクエリを入力として, 構文解析器をその場で生成し, クエリを実行する省メモリなデータ処理系の設計と初期実装を行い, 評価を行った. JSON形式のデータに対する評価の結果, 宣言的なクエリをサポートしつつ, JSON用の高速なSAX型パーザであるrapidjsonと同等の速度を持つことが確かめられた. 研究項目 (C) 「並列化・ベクトル化共通基盤」に関しては, ニューラルネットワークによる日英機械翻訳アルゴリズムで世界最高水準の精度を持つ機械翻訳アルゴリズムの実装N3LPを対象に, ベクトル化, 並列化を用いた高速化を達成した. 研究項目 (D) 「データ解析ワークフロー記述・実行系」に関しては, 既存のコンポーネントを組み合わせた並列・分散データ処理が容易に記述・実行できる処理系Big Data Shellの初期実装を行った.
Strategy for Future Research Activity	今年度の活動により, 各項目に対して今後の土台となる初期実装が完成しており, 来年度以降各項目について, 技術的に興味深い, チャレンジングな課題に取り組んで行く予定である. 研究項目 (A) に関して, 与えられた文法に対する構文解析の並列化, ベクトル化について研究する. 研究項目 (B) に関して, 引き続きニューラルネットによる機械翻訳を主な対象として研究を行う. 特に, 連携研究者鶴岡らによるTree to Sequenceに基づくニューラル機械翻訳の並列化により世界再考の精度と高性能を目指す.

Research Products
(8 results)

All 2017 2016

All Journal Article (7 results) (of which Int'l Joint Research: 1 results, Peer Reviewed: 7 results, Acknowledgement Compliant: 6 results) Presentation (1 results) (of which Int'l Joint Research: 1 results, Invited: 1 results)

[Journal Article] Cache Friendly Parallel Encoder-Decoder Model without Padding on Mulit-core Architecture2017
- Author(s)
  Yuchen Qiao, Kenjiro Taura, Kazuma Hashimoto, Yoshimasa Tsuruoka and Akkiko Eriguchi
- Journal Title
  
  Proceedings of The 6th International Workshop on Parallel and Distributed Computing for Large Scale Machine Learning and Big Data Analytics
  
  Volume: - Pages: -
- Peer Reviewed / Int'l Joint Research / Acknowledgement Compliant
[Journal Article] Low latency and resource-aware program composition for large-scale data analysis2016
- Author(s)
  Masahiro Tanaka, Kenjiro Taura, and Kentaro Torisawa
- Journal Title
  
  16th IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing (CCGrid)
  
  Volume: - Pages: 325-330
- DOI
  https://doi.org/10.1109/CCGrid.2016.88
- Peer Reviewed
[Journal Article] A static cut-off for task parallel programs2016
- Author(s)
  Shintaro Iwasaki, Kenjiro Taura
- Journal Title
  
  Proceedings of the 2016 International Conference on Parallel Architectures and Compilation
  
  Volume: - Pages: 139-150
- DOI
  https://doi.org/10.1145/2967938.2967968
- Peer Reviewed / Acknowledgement Compliant
[Journal Article] Fragmented BWT: An Extended BWT for Full-Text Indexing2016
- Author(s)
  Masaru Ito, Hiroshi Inoue, and Kenjiro Taura
- Journal Title
  
  International Symposium on String Processing and Information Retrieval
  
  Volume: - Pages: 97-109
- DOI
  10.1007/978-3-319-46049-9_10
- Peer Reviewed / Acknowledgement Compliant
[Journal Article] Autotuning of a Cut-Off for Task Parallel Programs2016
- Author(s)
  Shintaro Iwasaki, Kenjiro Taura
- Journal Title
  
  IEEE 10th International Symposium on Embedded Multicore/Many-core Systems-on-Chip (MCSoC)
  
  Volume: - Pages: 353-360
- DOI
  https://doi.org/10.1109/MCSoC.2016.51
- Peer Reviewed / Acknowledgement Compliant
[Journal Article] Domain Adaptation and Attention-Based Unknown Word Replacement in Chinese-to-Japanese Neural Machine Translation2016
- Author(s)
  Kazuma Hashimoto, Akiko Eriguchi, and Yoshimasa Tsuruoka
- Journal Title
  
  the 3rd Workshop on Asian Translation (WAT2016)
  
  Volume: - Pages: 75-83
- Peer Reviewed / Acknowledgement Compliant
[Journal Article] Character-based Decoding in Tree-to-Sequence Attention-based Neural Machine Translation2016
- Author(s)
  Akiko Eriguchi, Kazuma Hashimoto, and Yoshimasa Tsuruoka
- Journal Title
  
  the 3rd Workshop on Asian Translation (WAT2016)
  
  Volume: - Pages: 175-183
- Peer Reviewed / Acknowledgement Compliant
[Presentation] A Quest for Unified, Global View Parallel Programming Models for Our Future2016
- Author(s)
  Kenjiro Taura
- Organizer
  A Quest for Unified, Global View Parallel Programming Models for Our Future
- Place of Presentation
  Kyoto
- Year and Date
  2016-06-01 – 2016-06-01
- Int'l Joint Research / Invited

2016 Fiscal Year Annual Research Report

大規模なad-hocデータに対する高速処理基盤

Principal Investigator

田浦 健次朗 東京大学, 大学院情報理工学系研究科, 教授 (90282714)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Cache Friendly Parallel Encoder-Decoder Model without Padding on Mulit-core Architecture2017

Author(s)

Journal Title

[Journal Article] Low latency and resource-aware program composition for large-scale data analysis2016

Author(s)

Journal Title

DOI

[Journal Article] A static cut-off for task parallel programs2016

Author(s)

Journal Title

DOI

[Journal Article] Fragmented BWT: An Extended BWT for Full-Text Indexing2016

Author(s)

Journal Title

DOI

[Journal Article] Autotuning of a Cut-Off for Task Parallel Programs2016

Author(s)

Journal Title

DOI

[Journal Article] Domain Adaptation and Attention-Based Unknown Word Replacement in Chinese-to-Japanese Neural Machine Translation2016

Author(s)

Journal Title

[Journal Article] Character-based Decoding in Tree-to-Sequence Attention-based Neural Machine Translation2016

Author(s)

Journal Title

[Presentation] A Quest for Unified, Global View Parallel Programming Models for Our Future2016

Author(s)

Organizer

Place of Presentation

Year and Date

田浦健次朗東京大学, 大学院情報理工学系研究科, 教授 (90282714)