研究課題/領域番号 |
16H01715
|
研究種目 |
基盤研究(A)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
ソフトウェア
|
研究機関 | 東京大学 |
研究代表者 |
田浦 健次朗 東京大学, 大学院情報理工学系研究科, 教授 (90282714)
|
研究期間 (年度) |
2016-04-01 – 2021-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
38,870千円 (直接経費: 29,900千円、間接経費: 8,970千円)
2020年度: 9,360千円 (直接経費: 7,200千円、間接経費: 2,160千円)
2019年度: 8,970千円 (直接経費: 6,900千円、間接経費: 2,070千円)
2018年度: 7,020千円 (直接経費: 5,400千円、間接経費: 1,620千円)
2017年度: 7,410千円 (直接経費: 5,700千円、間接経費: 1,710千円)
2016年度: 6,110千円 (直接経費: 4,700千円、間接経費: 1,410千円)
|
キーワード | 大規模データ処理 / ad-hocデータ処理 / 字句解析 / 構文解析 / データ抽出 / ad‐hocデータ処理 / 演算子優先度文法 / 構文解析器生成系 / 字句解析器生成系 / ad‐hocデータ / 構文解析器生成器 / 並列構文解析 / スキャナレス構文解析 / LL(*)文法 / 構文解析生成系 / ad-hocデータ / LL(*) / 正規表現 / 高性能計算 / 大規模データ / ストリーム処理 / 解析表現文法 / ニューラル機械翻訳 / 再帰型ニューラルネットワーク / 自然言語処理 / 文字列処理 / SIMD命令 |
研究成果の概要 |
並列化, SIMD化を用いた高性能テキスト処理を達成するため, 正規表現または文脈自由文法に対する並列化・ベクトル化された字句解析器・構文解析器を自動生成するアプローチに沿って研究を行った. 字句解析器を用いない(スキャナレス)構文解析に対してSIMD命令を用いて高速化を行うアプローチ, 字句解析器の並列化と, 局所的に構文解析可能な(したがって並列に処理しやすい)文法に対する構文解析器の並列化を行うアプローチを追求した.
|
研究成果の学術的意義や社会的意義 |
データ活用はSociety 5.0の要諦である. 多くの利用可能なデータはテキスト形式で保存されている(XML, JSONなど標準的な形式のものもあれば, 決まった形式のないものもある). 文字列に対するデータ処理の一番はじめの段階が字句解析または構文解析と呼ばれる, 一種のパターンマッチング処理である. 本研究はそれらを容易に, かつ高速に処理することを目指したもので, 社会で利用可能なビッグデータの増大に対して有用な貢献を果たしうる研究である.
|