2016 Fiscal Year Annual Research Report
Project/Area Number |
16H01715
|
Research Institution | The University of Tokyo |
Principal Investigator |
田浦 健次朗 東京大学, 大学院情報理工学系研究科, 教授 (90282714)
|
Project Period (FY) |
2016-04-01 – 2021-03-31
|
Keywords | 大規模データ処理 / ストリーム処理 / 解析表現文法 / ニューラル機械翻訳 / 再帰型ニューラルネットワーク |
Outline of Annual Research Achievements |
本年度は, ad-hocデータ処理系の設計と初期的な実装を行った. 実装した処理系をpegparserと称する. pegparserは, ad-hocなデータから抽出したいパターンを記述する文法記述と, 抽出されたデータに対する問い合わせ(query)を入力とし, そこからその文法に対する構文解析器を生成し,マッチした部分に対する問い合わせの実行までを行う. 文法記述として, 解析表現文法 (PEG) を用いた. 構文解析器の生成にはPEGTLライブラリを用いた. pegparserでは, 文法中に現れる非終端記号をクエリ中で指定して, SQL風の問い合わせ言語で問い合わせを行うことができる. 評価のための例題として, 以下の二つのタスクを例として用いた. (1) wikidataのダンプファイル(94GBのjson形式)から小説家の名前を列挙する; (2) GDELTの2004年度のtsvデータから日本に関する情報を抜き出す; 前者に対して, jsonの解析に用いられ, 高速性に定評のあるrapidjsonとの比較を行った. rapidjsonはjson形式のファイルに特化した構文解析器であることに注意されたい. rapidjsonはストリーム処理(SAX)型と木構造構築(DOM)型をサポートしている. 前者は処理系によるメモリ消費が少なく, 単純な解析であれば高速に実行できるが, ある程度以上複雑なパターンマッチを行う場合はユーザの負担が大きい. 後者はメモリ消費量が大きく, とくに物理メモリ容量を上回る処理の実行は困難である. Pegparserは, 宣言的な問い合わせ記述と省メモリな実行方式を両立させ, 実行速度もrapidjsonのSAX型パーザーと比較して30%程度の低下にとどまることが確認できた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
初年度の目標として掲げていた点については達成している. 研究項目 (A) 「Ad-hoc データに対する文法・問い合わせ記述言語設計」に関しては, 文法記述と宣言的なクエリを入力として, 構文解析器をその場で生成し, クエリを実行する省メモリなデータ処理系の設計と初期実装を行い, 評価を行った. JSON形式のデータに対する評価の結果, 宣言的なクエリをサポートしつつ, JSON用の高速なSAX型パーザであるrapidjsonと同等の速度を持つことが確かめられた. 研究項目 (C) 「並列化・ベクトル化共通基盤」に関しては, ニューラルネットワークによる日英機械翻訳アルゴリズムで世界最高水準の精度を持つ機械翻訳アルゴリズムの実装N3LPを対象に, ベクトル化, 並列化を用いた高速化を達成した. 研究項目 (D) 「データ解析ワークフロー記述・実行系」に関しては, 既存のコンポーネントを組み合わせた並列・分散データ処理が容易に記述・実行できる処理系Big Data Shellの初期実装を行った.
|
Strategy for Future Research Activity |
今年度の活動により, 各項目に対して今後の土台となる初期実装が完成しており, 来年度以降各項目について, 技術的に興味深い, チャレンジングな課題に取り組んで行く予定である. 研究項目 (A) に関して, 与えられた文法に対する構文解析の並列化, ベクトル化について研究する. 研究項目 (B) に関して, 引き続きニューラルネットによる機械翻訳を主な対象として研究を行う. 特に, 連携研究者鶴岡らによるTree to Sequenceに基づくニューラル機械翻訳の並列化により世界再考の精度と高性能を目指す.
|