2015 Fiscal Year Annual Research Report
統計的機械翻訳における翻訳・言語モデルの高速かつコンパクトな実装方法に関する研究
Project/Area Number |
15H02744
|
Research Institution | University of Tsukuba |
Principal Investigator |
山本 幹雄 筑波大学, システム情報系, 教授 (40210562)
|
Co-Investigator(Kenkyū-buntansha) |
乾 孝司 筑波大学, システム情報系, 准教授 (60397031)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | ダブル配列 / 言語モデル / ngramモデル / シングル配列 / トライ |
Outline of Annual Research Achievements |
初年度としての平成27年度は本研究の核となる(1)既提案の圧縮実装技術のさらなる実行時の高性能化、および(2)モデル構築の高速化の2つを重点的に研究した。 (1)確率的言語モデルの3つの評価軸である検索速度、圧縮率、精度はトレードオフの関係にあり、すべての評価軸を同時に高めるのは困難である。我々は、トライ系実装の圧縮率を高めることが、全体的にバランスの取れた高性能化に直結すると考えて以下の研究を進めた。まず、これまで我々が開発してきたダブル配列に基づく実装手法のさらなる圧縮を目指し、シングル配列の適用手法を検討した。シングル配列は、ダブル配列以上のメモリ削減が理論的には期待できるが、現実には単語の種類数よりもはるかにノード数が多いという言語モデルの特性のため全体に適用がするのは困難である。そこで、ダブル配列のメモリ効率が特に悪化する「子をたくさん持つ」少数のトライ・ノードに対してのみシングル配列を適用する混合型の実装方法を考案した(「部分転置ダブル配列」と名付けた)。これによって、ダブル配列による従来の実装では困難であった言語モデルの量子化効率を高める可能性があることを実験的に示した。また、低次ngramモデルの種類数が極端に多い言語モデルではダブル配列によるモデルが大きくなってしまうという欠点があったが、部分転置ダブル配列を使うことによってこの問題も解消することが分かった。 (2)モデル構築の高速化に関しては、ダブル配列にトライの子ノード群をぶつからないように配置する際の候補位置を一つづつずらすのではなく、大きくスキップする手法を考案した。これによって、従来の構築手法に対して5倍から10倍の高速化を達成した。 以上の成果を達成した上で、従来のダブル配列に基づく言語モデルの実装をオープンソースの統計的機械翻訳システムで動作する形で公開した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
全体的に、当初計画した手法で思ったほどの成果を上げることができなかったが、その原因等を分析することにより、当初計画よりもシンプルかつ効果的な手法を考案できた。 (1)既提案の圧縮実装技術のさらなる高性能化手法の核として、当初は言語モデル全体に適用困難であるシングル配列を、言語モデルを分割して適用する手法を計画していた。しかし、評価実験の結果、分割数を非常に大きく取る必要があり、分割のオーバヘッドが大きくなり、思ったほどの圧縮効果が得られなかった。そこで、ダブル配列による実装とシングル配列による実装の長所・短所を比較検討した結果、それぞれの欠点を補い合う2つの手法の混合手法と言える「部分転置ダブル配列」を考案することができた。従来手法ではあまり圧縮できない特殊な言語モデルに対しても効果的な圧縮を可能とするとともに、従来法ではその性質上の制約から実装できなかった量子化による圧縮を可能とするデータ構造となった。 (2)高速化の手法として当初の計画通り、string matching手法を用いて重複したチェックを行わない手法を開発した。評価実験によりこの手法で高速化することが分かったが、その高速化の本質は子ノード群を配置できないときに次の候補となる配置する場所を多めにスキップしていることによることが分かった。これにヒントを得て、オーバヘッドの大きいstring matching手法を使わずに、単にスキップ数を制御することによる高速化手法を考案した。これによって、string matching手法を使った場合よりも数倍高速な手法を得ることができた。並列化の検討については、(1)で計画していた手法を変更したため、次年度に繰り越すこととなった。 以上のように、当初計画していた手法とはやや異なるが、ほぼ計画していた性能を達成できる手法を提案した。
|
Strategy for Future Research Activity |
初年度の成果を発展かつ精密化すると共に、実際の統計的機械翻訳システムに組み込んだ実証実験と翻訳モデルへの応用を行う。 (1)初年度考案した手法の発展と精密化: 初年度、「部分転置ダブル配列」を考案し、効果的であることを予備実験で確認した。今後は、部分転置ダブル配列を用いて実際の言語モデルを構築し、その性能を実証する。現状では、言語モデルのステートの格納方式が定まっていないため、効率的な格納方式を検討・実装する。また、「部分転置ダブル配列」は従来法よりも構築に時間がかかることが予備実験で分かったため、より高速化の手法を検討する必要がある。初年度から延期している、並列化による高速化を含めて検討する。さらに、部分転置ダブル配列の副次的な効果として、従来法が苦手としていた低次ngramモデルの種類数が極端に多い言語モデルに対する圧縮効果が高いことが判明しているため、これについても精密な評価を行う。 (2)実際の統計的機械翻訳システムへの組込み: これについては、初年度からすでに取りかかっており順調に進んでいるが、特に、本研究の核として新たに提案する「部分転置ダブル配列」を用いた言語モデルによる実証実験を行う計画である。この手法は量子化が可能であるため、量子化による圧縮効果と翻訳速度および性能のトレードオフの関係を明らかにする。 (3)翻訳モデルへの実装手法の検討: 統計的機械翻訳のもう一つの重要なコンポーネントである翻訳モデルの効率的な実装手法の検討もこれから開始する。当初の計画通りトライ構造を利用したインデックスの圧縮が第1候補である。実際の実装は、本研究で考案した「部分転置ダブル配列」の適用により、もともと計画にはなかった翻訳モデルの効率的な量子化についても可能性が出てきたため、追加で検討する計画である。
|
Research Products
(1 results)