2019 Fiscal Year Research-status Report
複数タグセットのタグがついたコーパスによる語義曖昧性解消の転移学習
Project/Area Number |
18K11421
|
Research Institution | Ibaraki University |
Principal Investigator |
古宮 嘉那子 茨城大学, 理工学研究科(工学野), 講師 (10592339)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | バイリンガル分散表現 / コーパス / 語義曖昧性解消 / 単語 / 単語区切り / 分散表現 |
Outline of Annual Research Achievements |
一年目に行った二つの実験について、追加実験を行い、論文を執筆した。 ひとつめは、分類語彙表の分類番号(意味を表すクラスの番号)と岩波国語辞典の語義の対応をとる研究である。これは分類語彙表の分類番号と岩波国語辞典の語義の両方が付与された、現代日本語書き言葉コーパスを用いて実験を行っている。Bilingual word embeddingsを利用して、ふたつの辞書における意味の対応をとる方法であったが、最頻出の語義をとる手法に比べて,正解率を上回ることができなかった。これに対して、Bilingual word embeddingsの新しい手法を試してみたが、やはり最頻出の語義を出力する方が良いという結果になった。ただし、この試み自体は新しいので、タスクとしての提案を国際会議に投稿したところ、採択された。今年度発表予定である。 ふたつめは、Fine-tuningを使った分散表現の改良の実験である。これについては追加実験を行い、国内学会で発表を行った。現在、国際学会での発表を目指している。 また、複数のコーパスを利用する際に、単語の区切り方が違うという問題があり、今後本研究と大きく関わってくることが予測されたため、単語の区切り方が違うときに、別々に作った分散表現をマッピングする問題についての研究を行った。ひとつは、Bilingual word embeddingsを利用した手法であり。もうひとつは、マルチタスク学習を用いた手法である。これらをはじめとして、上記のテーマと合計して、関連論文をジャーナルに1本、国際会議に1本、国内の研究会に6本発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
サバティカルから帰国後、不在時の埋め合わせの仕事があったのと、不在時に学生をとれなかったことから、時間的および人的リソースが思ったほど割けなかったため、特に論文執筆に関して、やや遅れている。 また、コーパスの種類によっては、単語区切りが異なるという問題があり、語義曖昧性解消ではなく、単語区切りの問題に力を入れた研究となったので、少々当初の目的そのものの前段階の研究が増えてきた。しかし、単語区切りの問題は、語義曖昧性解消だけではなく、広範な研究にかかわるので、こちらから実験を行う予定である。 二年目の研究を受けて、主に単語区切りの問題に関して、日本語の研究会に出せるような成果はまた上がってきた。例えば、Bilingual Word Embeddingsによる短単位と長単位のアラインメントの研究や、マルチタスク学習を利用した短単位の分散表現から長単位の分散表現の合成の研究、単語区切りの違いによるQAサイトの質問回答ペアの分類の研究、 All-words WSDとfine-tuningを利用した分類語彙表の語義の分散表現の構築の研究などである。これらについて、研究によっては追加実験を行い、結果をきれいにまとめて国際学会の論文やジャーナル論文にしていく予定である。
|
Strategy for Future Research Activity |
マルチタスク学習を用いて、語義曖昧性解消の転移学習を行う予定である。二年目は国立国語研究所の日本語書き言葉均衡コーパスの、短単位の語義と長単位の語義についてその調査実験を行った。しかし、まだマルチタスク学習の実装には至っていなかったので、その実装から行う予定である。調査実験では、ひとつのコーパスの語義(短単位の語義)がもうひとつのコーパスの語義(長単位の語義)の語義曖昧性解消に対して役に立つという結果が得られている。ただし、片方のコーパス(長単位の語義)の量がとても少ないため、マルチタスク学習を用いた手法で精度を上げるためには工夫が必要であると考えている。 また、二年目は、複数のコーパスの転移学習を行うとき、コーパスごとに単語区切りが異なっていると、転移学習の大きな障害となっていることから、単語区切りの問題を解決する研究をいくつか行ってきた。こちらについても二年目の成果をまとめるだけでなく、さらなる実験を行っていく予定である。特に、二年目は日本語書き言葉均衡コーパスの、短単位と長単位を例に研究を行ってきたが、IPA辞書や、ほかの切り方についても考慮する予定である。特に、二年目は、人手で付与した係り受けの情報を利用して実験を行ってきたため、得られるデータに限りがあった。既存のツールを使って自動的に得られる情報から、問題を解決できるようにして、用例を増やして実験を行っていきたいと考えている。
|
Causes of Carryover |
研究成果を国際会議で発表予定であったが、発表が今年度になってしまったため。今年度に発表する際に使用する予定である。
|
Research Products
(9 results)