2022 Fiscal Year Research-status Report
単語ID最適化によるダブル配列言語モデルのサイズ縮小手法の開発
Project/Area Number |
22K12162
|
Research Institution | University of Tsukuba |
Principal Investigator |
山本 幹雄 筑波大学, システム情報系, 教授 (40210562)
|
Project Period (FY) |
2022-04-01 – 2026-03-31
|
Keywords | ngram言語モデル / トライ木 / remapping |
Outline of Annual Research Achievements |
ダブル配列言語モデルはダブル配列を用いたコンパクトなngram言語モデルの実装であり、高速な検索を実現できる点を特徴としている。しかし、非常に大きなテキストデータから学習する場合、モデルサイズ・構築速度が悪化する。本研究では、ダブル配列のモデルサイズ縮小の問題が単語ID付与(トライ遷移行列での列並び)に大きく依存している事実に基づき、ngram言語モデルのサイズ・構築時間を縮小させる単語ID付与手法を開発することを大きな目的としている。初年度はいくつかの提案予定の手法のうち、単語IDをngramのレベルによって変化させるRemappingと呼ばれる手法をダブル配列に適用することを提案し、サイズ・構築速度の効率を改善できることを示した。 Remappingはngram単語列をトライ木で表現した場合の各ノードから子ノードへ分岐する単語ID番号を付け替えて、子ノード集合への分岐のIDの幅(分岐する可能性のある単語ID番号の範囲)を小さくする手法である。トライ木中の単語IDを直前の単語(トライ木の1つ上のノード)に依存したIDに付け替える。直前の単語により単語の種類が限定されるため、単語ID番号を小さな範囲に限定できる。このRemappingの手法はこれまで文字列圧縮の効率化に使われてきた手法であるが、我々はこの手法をダブル配列の効率化に利用することを提案した。 ngramの種類数が数億から10億程度のある程度の規模のデータを用いて、Remappingの効果を評価した。その結果、Remappingしない場合に比べて確実にサイズが縮小しており、最大で30%程度のサイズ削減効果を確認できた。また、ngramの種類数が多くなるほどサイズ削減効果が高まっており、スケール効果が期待できる。加えて、構築速度もわずかであるが早くなっていることが確認できた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の最大の目標であるハイパーグラフの線形配置問題の解を利用した手法の開発については理論的な検討を行ったが、評価実験までには至らなかった。しかし、次善のアイデアであるremappingによる単語ID付与手法については計画以上の進展があり、ある程度の規模の実験による実証まで行い、学会発表を行うことができた。 複数計画しているアプローチの進捗程度が予定と少しずれているが、全体的な進捗としてはおおむね順調に進展していると判断する。
|
Strategy for Future Research Activity |
Remappingを利用した手法が予想以上に効率的なことが判明したため、今後は当初の計画であるハイパーグラフの線形配置問題の解を利用した単語ID最適化手法とともに、Remappingを利用した手法についてもさらなる改良および実証実験を行う計画である。 ハイパーグラフの線形配置を利用した手法については、詳細なアルゴリズムがほぼ完成しているため、次年度以降は実際にプログラムを作成し、大規模なデータによる評価実験を行う計画である。 Remappingを用いた手法については、この手法を実際に利用するにはRemapping用の辞書を効率的に格納する手法の開発が必要である。これを実現するために、ダブル配列を構築する際にRemapping用の辞書の索引として利用できる部分を配列の局所的な部分に配置するというアイデアを試す計画である。
|
Causes of Carryover |
新型コロナの影響により出張を取りやめ、オンライン参加としたため次年度使用額が生じた。64383円の次年度使用額を物品費に含めて使用予定である。
|