Transfer Learning of Word Sense Disambiguation with Corpora Tagged with Multiple Tag Sets
Project/Area Number |
18K11421
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Tokyo University of Agriculture and Technology (2021-2022) Ibaraki University (2018-2020) |
Principal Investigator |
Komiya Kanako 東京農工大学, 工学(系)研究科(研究院), 准教授 (10592339)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Project Status |
Completed (Fiscal Year 2022)
|
Budget Amount *help |
¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2020: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2019: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Fiscal Year 2018: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
|
Keywords | 語義曖昧性解消 / 分散表現 / 対応付け / 辞書 / 単語区切り / 複合語 / 古文 / BERT / コーパス / 教師なし / 疑似データ / バイリンガル分散表現 / 単語 / Fine Tuning / 語義 / 転移学習 |
Outline of Final Research Achievements |
We conducted research on word sense disambiguation using corpora with multiple word sense tag sets. First, we took the correspondence between two dictionaries using bilingual word embeddings and BERT. In addition, research on word sense disambiguation was conducted in historical texts with two tags, contemporary and historical tags. Furthermore, as the difference in tags sometimes come from the difference in word delimitation, we composed distributed representations of compound words from their constituent words using bilingual distributed representations and neural network multi-task learning. In addition, a related study, word segmentation in hiragana, was conducted.
|
Academic Significance and Societal Importance of the Research Achievements |
科研費を申請した際にはまだBERTなどの事前学習モデルは存在しなかった。そのため、複数の異なったタグセットのコーパスを利用した「語義曖昧性解消」の研究を行う予定であった。しかし、BERTの出現により翻訳などの下段タスクの前処理としての語義曖昧性解消の意義は小さくなったと考え、辞書の対応付けの研究を行うこととした。また、事前学習モデルはタガーを提供し、語彙を限定しているため、単語区切りが異なる問題があることに気づいたため、複合語の分散表現の合成の研究と平仮名の単語分割の研究を行った。さらに、古文のような言語学的観点からは、語義を知ることに意味があると考え、古文の語義曖昧性解消の研究を行った。
|
Report
(6 results)
Research Products
(39 results)