2021 年度研究成果報告書

大規模なad-hocデータに対する高速処理基盤

研究課題

PDF

研究課題/領域番号	16H01715
研究種目	基盤研究(A)
配分区分	補助金
応募区分	一般
研究分野	ソフトウェア
研究機関	東京大学
研究代表者	田浦健次朗東京大学, 大学院情報理工学系研究科, 教授 (90282714)
研究期間 (年度)	2016-04-01 – 2021-03-31
キーワード	大規模データ処理 / ad-hocデータ処理 / 字句解析 / 構文解析 / データ抽出
研究成果の概要	並列化, SIMD化を用いた高性能テキスト処理を達成するため, 正規表現または文脈自由文法に対する並列化・ベクトル化された字句解析器・構文解析器を自動生成するアプローチに沿って研究を行った. 字句解析器を用いない(スキャナレス)構文解析に対してSIMD命令を用いて高速化を行うアプローチ, 字句解析器の並列化と, 局所的に構文解析可能な(したがって並列に処理しやすい)文法に対する構文解析器の並列化を行うアプローチを追求した.
自由記述の分野	並列処理
研究成果の学術的意義や社会的意義	データ活用はSociety 5.0の要諦である. 多くの利用可能なデータはテキスト形式で保存されている(XML, JSONなど標準的な形式のものもあれば, 決まった形式のないものもある). 文字列に対するデータ処理の一番はじめの段階が字句解析または構文解析と呼ばれる, 一種のパターンマッチング処理である. 本研究はそれらを容易に, かつ高速に処理することを目指したもので, 社会で利用可能なビッグデータの増大に対して有用な貢献を果たしうる研究である.