研究課題/領域番号 |
21K12031
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 愛媛大学 |
研究代表者 |
二宮 崇 愛媛大学, 理工学研究科(工学系), 教授 (20444094)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2021年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
|
キーワード | 機械翻訳 / 深層ベイズ学習 / トランスフォーマー / 潜在変数モデル / フローベースモデル |
研究開始時の研究の概要 |
近年、複数文をまとめて入力することで文脈を考慮するニューラル機械翻訳の研究が盛んに行われているが、状況・文脈を表す抽象的な特徴を学習する機械翻訳技術が十分には確立されていないという問題がある。本研究は、これらの問題を解決するために、状況・文脈を表す潜在変数を有するフローベーストランスフォーマーモデルの研究を行う。フローベース深層生成モデルは可逆関数で表される確率的生成モデルであり、逆関数を用いることで潜在変数が直接得られることから、潜在変数の学習モデルとして期待されている。本研究は、変分推定を基礎として、フローベース深層生成モデルを文レベル潜在変数とする機械翻訳モデルの実現を目指す。
|
研究実績の概要 |
令和4年度は、潜在変数を用いたコンテキストアウェアな機械翻訳の学習を目的として、1) 潜在ディリクレ配分法 (LDA) を用いたトランスフォーマーの研究、2) EMアルゴリズムを用いたバイリンガルサブワード分割の研究、3) 潜在拡散モデルを用いたマルチモーダル機械翻訳の研究、4) 階層型BARTによる生成型要約の研究を行った。 1)について、潜在変数トピックモデルの有効性を確認するために、LDAにより与えられるタグを対訳文の先頭に付与して機械翻訳を行う手法を提案した。日英対訳コーパスASPECを用いた実験の結果、提案手法により翻訳精度BLEUが38.8%から39.0%まで向上することを確認できた。 2)について、現在ほとんどの機械翻訳システムではトークン分割のためにサブワード分割が用いられているが、従来のサブワード分割は単言語を対象としていた。本研究では、ユニグラム言語モデルを基にして、2言語間のサブワードアライメントを潜在変数とするバイリンガルサブワード分割を提案した。サブワードの対応関係を学習するためにEMアルゴリズムを用いた。ASPECを用いた実験の結果、日英翻訳のBLEU値が26.7%から27.3%まで向上することが確認できた。 3)について、潜在拡散モデルを用いることで、マルチモーダル機械翻訳に不要な画像情報を除去する画像変換を行う手法を提案した。Multi30kを用いた実験の結果、BLEU値が41.06%から41.20%まで向上することが確認できた。 4)について、階層型モデルの有効性を確認するため、コンテキストアウェアな階層型BARTによる生成型要約の研究を行った。文レベルの情報と単語レベルの情報を階層的に融合するモデルを考案し、自動要約に適用した。実験の結果、要約精度ROUGEが40.88%から40.98%まで向上することが確認できた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究目的と研究実施計画に従って予定通り研究を進めることが出来た。潜在変数モデルによるトピックの有効性や、文脈をモデルに組み込むことの有効性を機械翻訳および自動要約の実験により確認できた。
|
今後の研究の推進方策 |
潜在変数モデルをT-CVAEに組み込むことで、状況・文脈を考慮した潜在変数を扱う機械翻訳モデルの研究を行う。文レベルの潜在変数を扱うT-CVAEモデルの考案および開発を行い、文章として連続している対訳コーパスを用いて実験を行う。
|