研究課題/領域番号 |
22K12145
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 東京農工大学 |
研究代表者 |
古宮 嘉那子 東京農工大学, 工学(系)研究科(研究院), 准教授 (10592339)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2024年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
2023年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
2022年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
|
キーワード | 語義曖昧性解消 / 事前学習モデル / 分散表現 / アンサンブル学習 / 単語区切り |
研究開始時の研究の概要 |
複数の事前学習モデルを用いた最適なモデルの実現を目指し、①複数の事前学習モデルからの最適なモデルの選択、②複数の事前学習モデルからの新モデル作成の研究を行う。特に①については、(1) ターゲットデータの事前学習モデルに対する未知語率、(2) ターゲットデータの事前学習モデルに対するパープレキシティ、(3) サブワードを利用した際の語義曖昧性解消の対象単語の加算構成性に注目する予定である。
|
研究実績の概要 |
語義曖昧性解消の論文として、異なった古文と現代文という二つの基準の語義タグを使った研究を行い、分散表現(word2vec)を利用した手法でジャーナルを1報、現代文のBERTを利用したレキシカル・サンプルタスクの研究で国際会議を1報、さらに現代文のBERTを利用したコーパス中の全単語を対象とした語義曖昧性解消の研究で、研究会の論文を1報執筆し、発表を行った。研究会の論文はブラシュアップして国際会議に投稿予定である。さらに、日本語歴史コーパスの語義曖昧性解消の関連論文として、日本語歴史コーパスの古文から現代文への翻訳を事前学習モデルであるT5を用いて行った研究について国内学会で発表を行った。こちらについても、2023年度以降に国際会議に投稿予定である。 また、関連論文として、異なった区切りの異なった単語に関係して、ある複合語の単語の分散表現(word2vec)をそれぞれの構成語から合成する研究について、執筆したジャーナル論文が公開された。 また、副次的な研究として、語義曖昧性解消ではないが、同じ手法を用いた、単語の読みを付与するシステムを作成する研究を行った。こちらについても、異なったタグと皆さえる疑似データがシステムの正解率を上昇させるという結果を示した。この研究は、国内学会で発表済みであるが、2023年度以降に国際会議に投稿予定である。 さらに、関連論文として、「日本語 PromptBERT におけるプロンプトベース対照学習の有効性とプロンプトの性質の調査」の発表を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
語義曖昧性解消の研究として、古文コーパス(日本語歴史コーパス)を用いた実験を行った。分散表現、事前学習モデルによるレキシカルサンプルタスク、またコーパス中の全単語を対象とした語義曖昧性解消の実装が終了している。単語区切りを変えた場合や、タグを変えた場合の実験も予備実験ながら行っている。
|
今後の研究の推進方策 |
2023年度は、古文だけではなく、現代文を対象として語義曖昧性解消の実験を行う予定である。また、古文に対しても、前年度に行った事前学習モデルであるBERTを用いた実験だけではなく、Robertaを用いた実験についても実施しつつある。これらを踏まえて、複数の事前学習モデルを利用した場合の語義曖昧性解消についての研究を行う。また、関連研究についてもいくつかのアイディアがあるので、それらに関しても行う予定である。
|