2021 Fiscal Year Annual Research Report
Compositionality and Interpretation of Word Embeddings
Project/Area Number |
19K12099
|
Research Institution | Tokyo Metropolitan University |
Principal Investigator |
小町 守 東京都立大学, システムデザイン研究科, 教授 (60581329)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 単語分散表現 / 深層学習 / 文法誤り訂正 / 意味変化 |
Outline of Annual Research Achievements |
本年度は昨年度から引き続き文法誤り訂正における単語分散表現の分析を継続しつつ、通時的な単語分散表現の学習に関する研究と分析に着手しました。 前者では、文法誤り訂正に焦点を絞って、どのような情報が言語を跨いて転移可能であるか、ということを明らかにすることに取り組みました。言語を跨いだ文法誤り訂正においては、ヨーロッパの言語同士のように同じアルファベットを用いる言語では部分文字列(サブワード)の重なりが見られる一方、日本語と英語のように異なる文字を用いる言語では部分文字列に重なりがないのですが、それでも文法知識の転移が可能であることを示しました。この研究は2021年度内に論文誌に採択されました。 後者では、単語の意味が歴史的に変化していく現象を単語分散表現を用いて捉えられるかどうか、というテーマについて、日本語および英語のデータを用いて取り組みました。先行研究ではそれぞれの時期を分けて単語分散表現を学習していましたが、本研究では全ての時期のデータを混ぜて自己相互情報量に基づいて学習することで、より高精度に単語の意味変化を捉えられることを示しました。また、文脈を考慮した単語分散表現を用いることで、日本語の単語の意味変化を検出することが可能であることも検証しました。それぞれの研究は査読付きの国際会議にて発表しました。 研究期間全体では、単語より小さい単位での単語分散表現の学習については、機械翻訳を題材にして日中翻訳における単語分散表現学習における最適な入力の粒度を探究し、文法誤り訂正においても日本語・英語・ドイツ語・ロシア語など複数の言語でどのような知識が転移可能であるかを明らかにしました。情報理論的な解釈については、当初の目的通りには進展しませんでしたが、通時的な意味変化を捉えるための単語分散表現の学習において情報理論的な背景を持つアプローチを採用し、解釈性の高い手法を提案しました。
|
Research Products
(4 results)