2021 Fiscal Year Research-status Report
複数タグセットのタグがついたコーパスによる語義曖昧性解消の転移学習
Project/Area Number |
18K11421
|
Research Institution | Tokyo University of Agriculture and Technology |
Principal Investigator |
古宮 嘉那子 東京農工大学, 工学(系)研究科(研究院), 准教授 (10592339)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Keywords | コーパス / 語義曖昧性解消 / 辞書 / BERT / 教師なし / 疑似データ |
Outline of Annual Research Achievements |
BERTを用いたふたつの辞書の語義の対応付けの研究を行い、国内学会で発表を行った。BERTの利用方法を工夫することで、二種類の手法を提案した。 ひとつめは、ある語義をもつ、対象の単語の学習済みのBERTによる出力ベクトルを直接比較して、最も近いベクトルである語義をその対応語義とする手法である。Fine-tuningを利用せず、事前学習モデルの結果をそのまま使って計算する。 もうひとつは、タグ付きコーパスを用いて、ひとつの辞書において同じ語義かどうかというタグつきデータを生成し、これをふたつの辞書の同じ語義かどうかという問題の疑似データとして用いる手法である。この疑似データを用いてBERTのFine-tuningを行うことで、ふたつの辞書の語義の対応付けを行う手法である。これらは、どちらも教師なしの手法である。 同じ問題について昨年国際学会で発表した、bilingual word embeddingsを利用した教師なしの手法では、線形変換とVecMapというに手法両方において、最頻出の語義を回答とする手法のベースラインを上回ることができなかったが、今回の手法では両方とも、最頻出の語義を回答とする手法のベースラインを上回る結果となった。この結果を今年度、国際会議に投稿予定である。 また、昨年提案した複数のコーパスを利用する際に、単語の区切り方が違うという問題に対して、マルチタスク学習を用いた手法に関して、論文を執筆し、現在は投稿中である。 2022年度は論文投稿と発表を主に行う予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
去年までの手法は、最頻出の語義を回答とする手法のベースラインを超えることができなかったが、今年の手法はこのベースラインを超すことができたため、目的を達成したと考えている。この研究結果を論文投稿して発表することで、本研究は一段落すると認識している。
|
Strategy for Future Research Activity |
国内学会で発表した内容を、国際会議の論文にして発表予定である。また、現在投稿している論文に関しても、採録を目指して改善していく予定である。
|
Causes of Carryover |
サバティカルから帰国後、不在時の埋め合わせの仕事があったことと、不在時に学生をとれなかったことから、時間的および人的リソースが思ったほど割けなかったため、研究が遅れていたが、2020年度には、新型コロナウイルスのためにオンライン授業の準備や入試の準備にかなり時間がとられた。2021年に職場を変ったこともあり、遅れは取り戻しつつあるが、まだ完全ではない状態である。 本研究の成果の発表のための国内外の学会の登録料や雑誌の掲載料に利用する。
|
Research Products
(8 results)