研究課題/領域番号 |
19K12099
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 東京都立大学 |
研究代表者 |
小町 守 東京都立大学, システムデザイン研究科, 教授 (60581329)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2021年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2020年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2019年度: 2,990千円 (直接経費: 2,300千円、間接経費: 690千円)
|
キーワード | 単語分散表現 / 構成性 / 機械翻訳 / 文法誤り訂正 / 意味変化 / 深層学習 / 自然言語処理 / 文法誤り検出 / 機械学習 / 分散表現 |
研究開始時の研究の概要 |
本研究は、自然言語処理における単語分散表現の学習において、意味の構成性がどのように実現されていて文の意味表現を計算できるのかについて、情報理論的観点から研究する。意味を構成する最小の単位は形態素と言われているが、文の意味の計算に必要な構成要素が何であるかは明らかではない。そこで、本研究は形態素より小さい単位で意味を構成する要素の探求と、それらを用いて文の意味を計算する技術の確立を目指す。
|
研究成果の概要 |
本研究では、自然言語処理における単語をベクトル化して表現する分野である単語分散表現の学習において、単語より小さい単位での分散表現から、より大きな単位の分散表現を計算する手法について研究を行いました。具体的には、機械翻訳を題材にして日中翻訳における単語分散表現学習における最適な入力の粒度を探究し、文法誤り訂正においても日本語・英語・ドイツ語・ロシア語など複数の言語でどのような知識が転移可能であるかを明らかにしました。また、単語分散表現の解釈についても取り組み、通時的な意味変化を捉えるための単語分散表現の学習において情報理論的な背景を持つアプローチを採用し、解釈性の高い手法を提案しました。
|
研究成果の学術的意義や社会的意義 |
本研究の成果は、日本語や中国語のような表意文字を用いる言語は、文字よりも細かい単位で意味を捉える方が適切であるという可能性を示唆している点にあります。世界的には英語に代表されるような少数のアルファベットを用いる言語が広く研究されていますが、そのような言語で提案されている手法が日本語や中国語では必ずしも最適な手法ではない、ということを意味します。深層学習の登場により多言語を同時に扱うことのできる手法がさまざま提案されていますが、それぞれの言語の特徴も考慮することの重要性を改めて示しています。
|