研究課題/領域番号 |
19K20351
|
研究機関 | 国立研究開発法人理化学研究所 |
研究代表者 |
大内 啓樹 国立研究開発法人理化学研究所, 革新知能統合研究センター, 特別研究員 (70825463)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | Transductive Learning / Transfer Learning / Domain Adaptation / Syntactic Parsing / Semantic Parsing / Language Models |
研究実績の概要 |
目標テキスト(解析対象テキスト)に特化した単語分散表現の学習手法を提案し,有効性の検証実験および論文執筆・公開を行った.具体的には,ふたつのサブモデルからなるモデルを仮定し,段階的に学習していく手法を提案した.サブモデルのひとつめの言語モデルであり,テキストの各単語をベクトル表現に変換する.もうひとつのサブモデルはタスク依存モデルであり,変換された単語表現を入力として受け取り,各解析タスクで求められる構造を出力する.これらふたつのサブモデルを三段階に分けて学習する.まず,大規模コーパスから言語モデルを学習し,任意のテキストに汎化するようにした.次に,学習済み言語モデルを目標テキストで再学習し,目標テキストの単語分布に特化するようにした.最後に,学習済み言語モデルから単語ベクトルを入力として受け取るタスク依存モデルを,各解析タスクの教師信号によって学習した.統語・意味解析タスクにおける評価実験の結果として,言語モデルを目標テキストに特化させることによって,そうでない場合よりも性能を改善できることがわかった.特に,学習データと異なる分野の目標テキストを解析対象とする際により大きな効果が見られた.これらの結果から,申請時に期待していた通り,目標テキストが所与の場合はそのテキストに単語分散表現(言語モデル)を特化させることが効果的であることを示された.実応用の文脈で言い換えると,解析したい(目標)テキスト集合を手元に保有している一般企業やユーザーは,本提案手法のように目標テキストにモデルを特化させることによってより効果的に解析可能であることが示唆された.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2019年度の計画として「単語分散表現を目標テキストに特化させる手法の開発とその効果の検証」を掲げ,予定通り進んでいる.
|
今後の研究の推進方策 |
2020年度の計画として「同一ラベルを持つ事例が特徴ベクトル空間内で近くに位置するように学習する手法の開発とその効果の検証」を行う.
|
次年度使用額が生じた理由 |
本年度予定していた物品購入を次年度に行うため
|