2023 Fiscal Year Research-status Report
単語ID最適化によるダブル配列言語モデルのサイズ縮小手法の開発
Project/Area Number |
22K12162
|
Research Institution | University of Tsukuba |
Principal Investigator |
山本 幹雄 筑波大学, システム情報系, 教授 (40210562)
|
Project Period (FY) |
2022-04-01 – 2026-03-31
|
Keywords | ngram言語モデル / トライ木 / median iteration |
Outline of Annual Research Achievements |
ダブル配列言語モデルはダブル配列を用いたコンパクトなngram言語モデルの実装であり、高速な検索を実現できる点を特徴としている。しかし、非常に大きなテキストデータから学習する場合、モデルサイズ・構築速度が悪化する。本研究では、ダブル配列のモデルサイズ縮小の問題が単語ID付与(トライ遷移行列での列並び)に大きく依存している事実に基づき、ngram言語モデルのサイズ・構築時間を縮小させる単語ID付与手法を開発することを大きな目的としている。 本年度は、トライ遷移行列の列を直接並び替えて単語IDを変化させる手法を検討した。言語モデルの遷移行列は巨大になるため、巨大な行列に適用できる既存の手法はそれほど多くない。我々はMedian Iterationと呼ばれるグラフの線形配置問題の解を改善するアルゴリズムに着目し、これをハイパーグラフに拡張することで、トライ遷移行列の列を並び替える手法を提案した。 また、Median Iterationアルゴリズムは緩和問題に変換して解くため、元の問題が必ず良くなるとは限らない。我々は、Median Iterationで求まる各列の移動を1対1での入れ替えにすることで、他の単語IDに影響を与えずに改善するMedian Exchange Iteration手法を考案した。 ngramの種類数が数億から10億程度のある程度の規模のデータを用いて、Median Exchange Iteration手法の効果を評価した。繰り返しの結果として得られた単語IDを用いて10億エントリの言語モデルを構築し、Median Exchange IterationはMedian Iterationを用いて改善した単語IDよりもモデルサイズを約10%縮小できることを確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の最大の目標であるハイパーグラフの線形配置問題の解を利用した手法の開発について、2つの具体的なアルゴリズムを提案し、評価実験により確実に単語IDを改善できることを示した。特に、Median Exchange Iterationはベースとしたアルゴリズムの欠点を改善しており、今後の改良に期待できる結果となった。 複数計画しているアプローチの進捗程度が予定と少しずれているが、全体的な進捗としてはおおむね順調に進展していると判断する。
|
Strategy for Future Research Activity |
本年度開発したMedian Exchange Iteration手法が予想以上に効果的なことが判明したため、今後は本手法のさらなる改良を行うとともに、昨年度開発したRemappingを利用した手法の改良を行いながら、両手法の統合を検討する。 Median Exchange Iterationの改良方法としては、現在の1対1の移動の交換を拡張し、複数の移動(3つ以上)を同時に交換することによる近傍範囲の拡大を検討する。これは巡回セールスマン問題の繰り返し解法で知られているn-opt法の効果が期待できると考えている。 Remappingを用いた手法については、この手法を実際に利用するにはRemapping用の辞書を効率的に格納する手法の開発が必要である。これを実現するために、ダブル配列を構築する際にRemapping用の辞書の索引として利用できる部分を配列の局所的な部分に配置するというアイデアを試す計画である。
|
Causes of Carryover |
残り予算(3993円)で購入できる研究必要物品がなかったため、次年度予算と合算して使用した方が効果的な予算執行ができると考えた。3993円は次年度物品購入費として使用予定である。
|