2018 Fiscal Year Annual Research Report
Project/Area Number |
16H01715
|
Research Institution | The University of Tokyo |
Principal Investigator |
田浦 健次朗 東京大学, 大学院情報理工学系研究科, 教授 (90282714)
|
Project Period (FY) |
2016-04-01 – 2021-03-31
|
Keywords | 大規模データ処理 / ad‐hocデータ処理 / LL(*)文法 / 構文解析生成系 |
Outline of Annual Research Achievements |
研究項目 (A) Ad-hoc データに対する文法・問い合わせ記述言語設計: 昨年度までの研究により, 直感的で表現力の高い文法記述形式であるLL(*)文法を字句解析なしで文字単位で解析できるための文法クラスLL(*)-Sを定義し, その構文解析生成系を得ることに成功している. 研究項目 (B) Ad-hoc データ解析・問い合わせ 並列化・ベクトル化アルゴリズム: LL(*)-Sに基づき高性能な構文解析器を生成する処理系を実装し, 評価を行った. 処理系は, ベクトル命令を用いて構文解析を(1コア上で)高速化するとともに, セマンティクアクションをマルチコアで並列に実行することで高速化する. JSON文法とXML文法を本フレームワークで記述し, その性能評価の結果, 構文解析部がIntel Xeon E5-2699上でJSONに対して300MB/秒, XMLに対して250MB/秒の性能を持つことがわかった. また, JSON, XMLからの簡単なデータ抽出タスクで1ワーカで約25MB/秒から16ワーカで200MB/秒程度までのスケーラビリティを確認した(論文準備中). 構文解析部自身の並列化に関して, 文献調査から, 演算子優先度文法に基づき, 冗長な計算をすることなく並列に構文解析を行えるクラスがあるとわかり, それに基づく並列構文解析器生成系を実装中である. 研究項目 (C) 並列化・ベクトル化共通基盤 : 主に自然言語処理を対象とした並列機械学習フレームワークを対象として, 自動バッチングという手法の新しい方式を提案しそれに基づく処理系の実装と評価を行った(論文投稿中).
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究の中心的テーマである, 文法記述から高速な構文解析器を生成する, それによりad-hocな大規模データの高速処理に適用する, というテーマについて, 当初から想定していた成果が得られつつある. 構文解析器の並列化に関しても表現力にやや欠けるものの, 当初想定したような, 並列構文解析器を生成できる文法のクラスを見い出し, それに基づき並列構文解析を実装できることがわかり, 概ね順調である. 構文解析と並行して進めていた, 自然言語処理(ニューラル機械翻訳)の最適化についても, より一般的な, 機械学習フレームワークの最適化へと一般化させようとしており, この部分は当初の予定を越えるテーマになっている.
|
Strategy for Future Research Activity |
研究項目(A)(B) : LL(*)-S文法の高速な構文解析の成果に関しては評価を充実させ, 論文の出版を行う. 演算子優先文法に基づく並列構文解析に関しては, 冗長な演算を用いることを含めたより一般的な並列構文解析可能なクラスへと拡張することを検討したい. また, 分散メモリ計算機による超並列処理や, 高速ストレージ(SSDや不揮発メモリなど)を用いて現実の大規模データからの超高速なデータ抽出処理での実証実験を目指す. 研究項目 (C) 自動バッチングという(既存)手法に対して優位性のある手法を得ることに成功しており, 論文として出版する.
|