2022 Fiscal Year Final Research Report
Transfer Learning of Word Sense Disambiguation with Corpora Tagged with Multiple Tag Sets
Project/Area Number |
18K11421
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Tokyo University of Agriculture and Technology (2021-2022) Ibaraki University (2018-2020) |
Principal Investigator |
Komiya Kanako 東京農工大学, 工学(系)研究科(研究院), 准教授 (10592339)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Keywords | 語義曖昧性解消 / 分散表現 / 対応付け / 辞書 / 単語区切り / 複合語 / 古文 |
Outline of Final Research Achievements |
We conducted research on word sense disambiguation using corpora with multiple word sense tag sets. First, we took the correspondence between two dictionaries using bilingual word embeddings and BERT. In addition, research on word sense disambiguation was conducted in historical texts with two tags, contemporary and historical tags. Furthermore, as the difference in tags sometimes come from the difference in word delimitation, we composed distributed representations of compound words from their constituent words using bilingual distributed representations and neural network multi-task learning. In addition, a related study, word segmentation in hiragana, was conducted.
|
Free Research Field |
自然言語処理
|
Academic Significance and Societal Importance of the Research Achievements |
科研費を申請した際にはまだBERTなどの事前学習モデルは存在しなかった。そのため、複数の異なったタグセットのコーパスを利用した「語義曖昧性解消」の研究を行う予定であった。しかし、BERTの出現により翻訳などの下段タスクの前処理としての語義曖昧性解消の意義は小さくなったと考え、辞書の対応付けの研究を行うこととした。また、事前学習モデルはタガーを提供し、語彙を限定しているため、単語区切りが異なる問題があることに気づいたため、複合語の分散表現の合成の研究と平仮名の単語分割の研究を行った。さらに、古文のような言語学的観点からは、語義を知ることに意味があると考え、古文の語義曖昧性解消の研究を行った。
|