研究課題/領域番号 |
18K11449
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 法政大学 (2021-2022) 東京工科大学 (2018-2020) |
研究代表者 |
柴田 千尋 法政大学, 理工学部, 准教授 (00633299)
|
研究分担者 |
持橋 大地 統計数理研究所, 数理・推論研究系, 准教授 (80418508)
吉仲 亮 東北大学, 情報科学研究科, 准教授 (80466424)
|
研究期間 (年度) |
2018-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)
2020年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2019年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
2018年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
|
キーワード | 形式言語 / Transformer / RNN / 表現学習 / 自然言語処理 / 情報ボトルネック法 / 分布エンコーディング / 深層学習 / 内部表現 / LSTM / ディープラーニング / 統計的学習理論 / 時系列予測 |
研究実績の概要 |
昨年度に引き続き、本研究ではRNNやTransformerを対象とし、構文の構造がどのように表現されるかについて調査を行っている。Transformerは、任意の二つの離れた単語間の信号関係を計算するレイヤー(主にアテンション機構と呼ばれる)を積み重ねた構造を持っており、一般的に言ってより優れた言語モデルを構築可能とされているが、理論的な観点からは、RNNが表現できる言語クラスがより大きいとされている。 本研究では、特定の言語クラスに属する人工言語からサンプルされた文の集合を訓練データとして使用し、RNNとTransformerの間に存在する性質上の違いについて実験を行った。用いた言語は主にサブレギュラーと呼ばれる、複雑さの階層をもつ言語クラス群からなり、文中に現れた単語の出現の回数や順序、隣接関係を記述可能なクラスである。また、わずかな違いを持つような敵対的テストデータと呼ばれる概念を提唱している。実験をすすめることで、学習モデルが持つ一定の性質が明らかになることが期待される。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究が順調に進んでいる理由としては、複雑さの階層をもつサブレギュラー言語クラス群を対象にした適切な訓練データを用いてRNNとTransformerの性質を検証できる状態になったこと、敵対的テストデータを用いてモデルのロバスト性や性能を詳細に評価できることがあげられる。実験を進めることで学習モデルの性質が明らかになることが期待される。
|
今後の研究の推進方策 |
研究が順調に進んでいるため、引き続き実験と検証を行い、RNNとTransformerの性質上の違いについてより理解を深めることが重要である。これにより、例えば、学習モデルの解釈性に関する知見が得られ、今後の言語モデルの発展に寄与すると考える。
|