研究課題/領域番号 |
22K12162
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 筑波大学 |
研究代表者 |
山本 幹雄 筑波大学, システム情報系, 教授 (40210562)
|
研究期間 (年度) |
2022-04-01 – 2026-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2025年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2024年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2023年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2022年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
|
キーワード | ngram言語モデル / トライ木 / median iteration / remapping / 線形配置問題 / トライ / ハイパーグラフ |
研究開始時の研究の概要 |
音声・自然言語処理の基本技術の一つであるngram 言語モデルの効率的な実装に関する研究を行う。我々はダブル配列を利用したngram言語モデルの効率的な実装手法を提案してきたが、本研究ではモデルサイズのさらなる圧縮を目的とする。これまで、自然言語の特性を考慮に入れた発見的な手法でアドホックに効率化を図ってきた側面が強いが、本研究では数理的な組み合わせ最適化などの技術を利用して、より理論的な手法を試みる。
|
研究実績の概要 |
ダブル配列言語モデルはダブル配列を用いたコンパクトなngram言語モデルの実装であり、高速な検索を実現できる点を特徴としている。しかし、非常に大きなテキストデータから学習する場合、モデルサイズ・構築速度が悪化する。本研究では、ダブル配列のモデルサイズ縮小の問題が単語ID付与(トライ遷移行列での列並び)に大きく依存している事実に基づき、ngram言語モデルのサイズ・構築時間を縮小させる単語ID付与手法を開発することを大きな目的としている。 本年度は、トライ遷移行列の列を直接並び替えて単語IDを変化させる手法を検討した。言語モデルの遷移行列は巨大になるため、巨大な行列に適用できる既存の手法はそれほど多くない。我々はMedian Iterationと呼ばれるグラフの線形配置問題の解を改善するアルゴリズムに着目し、これをハイパーグラフに拡張することで、トライ遷移行列の列を並び替える手法を提案した。 また、Median Iterationアルゴリズムは緩和問題に変換して解くため、元の問題が必ず良くなるとは限らない。我々は、Median Iterationで求まる各列の移動を1対1での入れ替えにすることで、他の単語IDに影響を与えずに改善するMedian Exchange Iteration手法を考案した。 ngramの種類数が数億から10億程度のある程度の規模のデータを用いて、Median Exchange Iteration手法の効果を評価した。繰り返しの結果として得られた単語IDを用いて10億エントリの言語モデルを構築し、Median Exchange IterationはMedian Iterationを用いて改善した単語IDよりもモデルサイズを約10%縮小できることを確認した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究の最大の目標であるハイパーグラフの線形配置問題の解を利用した手法の開発について、2つの具体的なアルゴリズムを提案し、評価実験により確実に単語IDを改善できることを示した。特に、Median Exchange Iterationはベースとしたアルゴリズムの欠点を改善しており、今後の改良に期待できる結果となった。 複数計画しているアプローチの進捗程度が予定と少しずれているが、全体的な進捗としてはおおむね順調に進展していると判断する。
|
今後の研究の推進方策 |
本年度開発したMedian Exchange Iteration手法が予想以上に効果的なことが判明したため、今後は本手法のさらなる改良を行うとともに、昨年度開発したRemappingを利用した手法の改良を行いながら、両手法の統合を検討する。 Median Exchange Iterationの改良方法としては、現在の1対1の移動の交換を拡張し、複数の移動(3つ以上)を同時に交換することによる近傍範囲の拡大を検討する。これは巡回セールスマン問題の繰り返し解法で知られているn-opt法の効果が期待できると考えている。 Remappingを用いた手法については、この手法を実際に利用するにはRemapping用の辞書を効率的に格納する手法の開発が必要である。これを実現するために、ダブル配列を構築する際にRemapping用の辞書の索引として利用できる部分を配列の局所的な部分に配置するというアイデアを試す計画である。
|