研究課題/領域番号 |
18K11421
|
研究機関 | 茨城大学 |
研究代表者 |
古宮 嘉那子 茨城大学, 理工学研究科(工学野), 講師 (10592339)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | 語義曖昧性解消 / 分散表現 / バイリンガル分散表現 / Fine Tuning / 語義 |
研究実績の概要 |
このプロジェクトに関係する,ふたつの研究を行った. ひとつめは分類語彙表の分類番号(意味を表すクラスの番号)と岩波国語辞典の語義の対応をとる研究である.これは分類語彙表の分類番号と岩波国語辞典の語義の両方が付与された,現代日本語書き言葉コーパスを用いて実験を行った.具体的にはBilingual word embeddingsを利用して,ふたつの辞書における意味の対応をとる方法である.今のところ用例ごとに対応をとるのではなく,語義ごとに対応をとっている.また,最頻出の語義をとる手法に比べて,正解率を上回ることができないことが明らかになった. ふたつめは,Fine-tuningを使った分散表現の改良の実験である.前の科研費を用いたプロジェクト,「局所的な周辺文脈を利用した日本語の教師なしAll-words型語義曖昧性解消」において提案した教師なしで行う語義曖昧性解消の結果をもとに、語義を付与した大量のコーパスをもとに分散表現を作成し、人の手によって語義が付与された少量のコーパスの 2 種類のコーパスを用いて fine-tuning を行うことで、精度の高い分類語彙表の語義の分散表現を作成を目指す。2018年度は,クラスタリングを用いた評価を行った.クラスタリングを用いた評価では,片方の方向のFine-tuningは有用であるが,もう片方の方向はFine-tuningを行わないほうが良いという結果となった.他のパラメータ等を試して改良する予定である. また,関連する論文(品詞タグ付けのコーパスを用いて固有表現抽出の正解率を上げる研究およびもうひとつ)を国際会議で発表した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
Bilingual word embeddingsを利用した岩波国語辞典の語義と分類語彙表の分類番号の対応付けの研究,およびにFine-tuningを用いた,教師なし語義曖昧性解消の結果により,よりよい語義の分散表現を得る研究については,実験がほとんど終わっており,結果も得られている.ベースラインよりも良い結果になってはいないが,それについては想定内の事態であり,今後改善してゆく予定である. また,関連する論文(二件)を国際会議で発表した.
|
今後の研究の推進方策 |
Bilingual word embeddingsの実験に関しては,日本語の論文はできているので,まずはそれをもとに国際会議の投稿を行う.現在,英語で論文を執筆中である. Fine Tuningの実験に関しては,現在クラスタリングに代わる評価指標を考え,実装しているところである.この結果を国内学会に投稿予定である. この後,もう一つの手法を新しく考えている.具体的には,LSTM(Long short term memory)を用いて語義曖昧性解消のシステムを作成する予定である.このシステムは,分類語彙表の語義(分類番号)を使った語義曖昧性解消になる予定である.この際,分類語彙表の分類番号は,岩波辞典の語義とは異なり,複数の単語で同じ意味を共有している.そのため,この点を活かしたシステムとなる予定である.また,LSTMなどのディープラーニングを用いた機械学習を使うことによって,Fine-tuningやマルチタスク学習等の技術を使って,片方の語義曖昧性解消の知見を,もう片方の語義曖昧性解消の知見に再利用しやすくなると考えており,将来的にはLSTMを使ったマルチタスク学習の利用を想定している.
|
次年度使用額が生じた理由 |
参加を予定していた国際会議が国内で開催されたこと,また,もうひとつの国際会議に学生を連れて行く予算を計上していたが,別の予算を使用することにしたため,未使用額が生じた.2019年度の研究成果発表のための費用(渡航費,論文投稿料など)にあてたい.
|