研究課題/領域番号 |
18K11423
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 筑波大学 |
研究代表者 |
山本 幹雄 筑波大学, システム情報系, 教授 (40210562)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
研究課題ステータス |
完了 (2020年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2020年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2019年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2018年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
|
キーワード | ngram言語モデル / ダブル配列 / 双方向配置 / 文字列マッチング / 細粒度並列化 / Boyer-Moore / Elias-Fano符号化法 / Remapping / 部分転置ダブル配列 |
研究成果の概要 |
部分転置ダブル配列を用いたngram言語モデルの実装は、アクセス速度とモデルサイズの両面で優れているが、モデル(データ構造)の構築に非常に時間がかかるという欠点がある。本質的な困難性は数億から数十億にもなる子ノード配列(隙間がある)をお互いにぶつからないように1本の配列に配置する点にあり、相互依存が大きいため単純な並列化等の高速化が困難である。本研究では、部分転置ダブル配列の性質を深く検討し、複数の高速化手法によってモデル構築時間について高速化を実現すると同時により高い圧縮率を達成した。
|
研究成果の学術的意義や社会的意義 |
ngram言語モデルは音声認識や統計的機械翻訳技術の基盤技術であるため、本研究の成果によって高速かつコンパクトなngram言語モデルを短時間で作成できるようになった点に意義がある。また、より広い観点からは、ダブル配列はトライと呼ばれる一般的な辞書データ構造の実現方法の一つであり、本研究は巨大なデータに対するトライを高速かつコンパクトに実現できるという意味で巨大な辞書を必要とする広いアプリケーションに対しても有効である。
|