研究課題/領域番号 |
21K17800
|
研究機関 | 東京工業大学 |
研究代表者 |
高瀬 翔 東京工業大学, 情報理工学院, 助教 (40817483)
|
研究期間 (年度) |
2021-04-01 – 2023-03-31
|
キーワード | 自然言語処理 / ニューラルネットワーク / 機械翻訳 |
研究実績の概要 |
本研究では自然言語処理を行うニューラルモデルについて、計算資源に対して効率的なモデル構築手法を探求する。特に学習時間に比して効果的な性能改善手法の実現を目指し、性能向上に貢献するが学習時間に多大な悪影響を及ぼす敵対的な摂動(本来は出力が変化するべきではないが、モデルに入力すると大幅に出力が変化する微小なノイズ)を用いる手法について、高速化を測る。 今年度は、単語をランダムに置き換える手法や単語の埋め込み表現をランダムにゼロに置き換える単語ドロップアウトのような単純な摂動手法と敵対的な摂動やモデルの出力を確率的に入力に用いるスケジュールドサンプリングのような複雑な手法を、翻訳、要約、文法誤り訂正タスクのような様々な系列変換タスクにおいて比較し、学習時間に比して効果的な手法を、実験を通して調査した。結果として、単純な手法の方が学習時間に比して効果的であり、複雑な手法は増加する学習時間を考慮に入れると使用する利点がないということが判明した。従来の研究では性能上昇のみに焦点が当てられることがほとんどであったが、計算時間を揃えた場合、すなわち、単純な手法で複雑な手法と同程度の時間を費やして学習した場合には、複雑な手法の性能を上回ることも示し、計算時間と性能とのトレードオフを考慮することが必要であることを(改めて)明らかにした。 また、効率という観点で、計算時間に加えてパラメータ効率の良い手法を探求し、近年、深層にするために多用されている構造は深層化が容易な一方、パラメータ効率が悪いことを実験的に明らかにした。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究課題の目標としては計算時間の観点で効率の良い摂動手法を実現することである。本年度の研究を通して、既存の摂動手法、特に性能向上の点で優れているとされている敵対的摂動は、少なくとも自然言語処理のタスクにおいては計算時間の観点から効率的でないことを示した。この研究では単純な摂動が極めて効率的であることも示しており、これからの研究の指針ができたかと考えている。 また、パラメータ効率についても、近年の深層なニューラルモデルを構築する際に多用されている構造はパラメータ効率が悪いことを明らかにし、深層化が難しいとされている構造で学習を安定化する方法が求められることが分かった。
|
今後の研究の推進方策 |
本年度の研究を通して、学習時間効率を鑑みると、単純な摂動手法が効果的であることが分かった。今後はこの単純な手法をベースに、より優れた摂動を探求することを考えている。本年度の研究では、単語の類似度に基づき入力単語を別の語に置換する摂動が効果的であることが分かったので、例えば単語の類似度の算出は事前学習モデルを利用する方法が考えられる。また、学習時間に対して効率的な手法としては、近年広く使われている事前学習モデルについて、パラメータを追加し、一部のパラメータのみ学習するという手法もある。加えて、学習済みのモデルを効果的に使う方法、例えば1つのモデルの重み行列をランダムにゼロに置き換えたモデルを複数用意し、デコードすることで、モデルアンサンブルのような効果を期待する、シングルモデルアンサンブルの手法も探求する余地があると考えており、これらを並行で研究していきたい。
|
次年度使用額が生じた理由 |
新型コロナウイルスの影響で現地開催される学会があまりなく、出張に使う予定の旅費が消化されなかった。しかしながら、海外出張については航空機や宿泊費の価格が低下しており、来年度は予定よりも多く使用する可能性が高い。 また、計算機についても前年度よりも多く使用する可能性があり、物品費も前年度よりも増加する予定である。
|