2017 Fiscal Year Annual Research Report
Project/Area Number |
16H01715
|
Research Institution | The University of Tokyo |
Principal Investigator |
田浦 健次朗 東京大学, 大学院情報理工学系研究科, 教授 (90282714)
|
Project Period (FY) |
2016-04-01 – 2021-03-31
|
Keywords | 大規模データ処理 / ad-hocデータ処理 / LL(*)文法 / 構文解析生成系 |
Outline of Annual Research Achievements |
研究項目 (A) Ad-hoc データに対する文法・問い合わせ記述言語設計: ad-hocな大規模データを高速に処理するためのデータ処理系として, 文法記述から高速な構文解析器を自動生成する処理系の研究を進めている.直感的で表現力の高い文法記述形式としてLL(*)文法に着目し, それを, 字句解析なしで文字単位で解析できる, スキャナレスな構文解析器の生成系を得ることに成功した. スキャナレスであることにより, 字句解析器と文法記述を同一の枠組みで行うことができ, 通常の文法記述の枠組みでは困難な, 埋込み言語(データの一部だけが別の文法---従って別の字句解析規則---に従っている言語)の解析にも用いることができる. これはad-hocなデータの処理に適した性質である. 研究項目 (B) Ad-hoc データ解析・問い合わせ 並列化・ベクトル化アルゴリズム: 項目(A)で述べた構文解析器はスキャナレスであり, 文字単位処理の部分でベクトル化命令を用いた最適化が行われている. また, 構文解析自身は並列化されていないが, 構文の認識にともなうユーザアクションは並列化されている. 本処理系でJSON形式の文法を記述して評価を行った所, JSON専用のパーサRapidJsonと比較しても高速という結果が得られた. これにより, ad-hocなデータに対して文法を記述して解析するアプローチが利便性, 汎用性, 高性能を両立しうることを示すことができた. 現在, 構文解析自身を並列化する研究を進めている. 研究項目 (C) 並列化・ベクトル化共通基盤 : 昨年度に引き続き, ニューラルネットワークを用いたニューラル機械翻訳およびその並列化・ベクトル化を用いた高速化の研究を行った. 国際学会発表を行い, その後ジャーナルへの投稿推薦論文となった.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究の中心的テーマである, 文法記述から高速な構文解析器を生成する, それによりad-hocな大規模データの高速処理に適用する, というテーマについて, 当初から期待していた成果が得られつつある. ニューラル機械翻訳の最適化についても得られた知見を元に新しい機械学習フレームワークへ一般化させようとしており, この部分は当初の予定を越えるテーマになっている. 構文解析器の並列化に関しては着手したところであり, 総合的には概ね順調である.
|
Strategy for Future Research Activity |
研究項目(A)(B) : 構文解析そのものの並列化の研究を進めるとともに, 分散メモリ計算機による超並列処理や, 高速ストレージ(SSDや不揮発メモリなど)を用いて現実の大規模データからの超高速なデータ抽出処理での実証実験を目指す. 研究項目 (C) 並列化・ベクトル化共通基盤 : 新しい機械学習フレームワークの設計と実装を行う. そのフレームワークでは, 自動バッチングという(既存)手法をさらに発展・最適化させることを目指している. これによりユーザがひとつのサンプルに対する処理を記述するだけで, たとえそれらの処理の詳細が異なっていても, 自動的なベクトル化, 並列化が行われるとともに, メモリ参照の局所性が優れたスケジュリーングを行うことを目指している.
|