複数の事前学習モデルを利用した語義曖昧性解消のドメイン適応
Project/Area Number |
22K12145
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Tokyo University of Agriculture and Technology |
Principal Investigator |
古宮 嘉那子 東京農工大学, 工学(系)研究科(研究院), 准教授 (10592339)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2024: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2023: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2022: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
|
Keywords | 語義曖昧性解消 / 事前学習モデル / 古文 / 言語横断 / 分散表現 / アンサンブル学習 / 単語区切り |
Outline of Research at the Start |
複数の事前学習モデルを用いた最適なモデルの実現を目指し、①複数の事前学習モデルからの最適なモデルの選択、②複数の事前学習モデルからの新モデル作成の研究を行う。特に①については、(1) ターゲットデータの事前学習モデルに対する未知語率、(2) ターゲットデータの事前学習モデルに対するパープレキシティ、(3) サブワードを利用した際の語義曖昧性解消の対象単語の加算構成性に注目する予定である。
|
Outline of Annual Research Achievements |
語義曖昧性解消の論文として、22年度に研究会で発表した、古文に現代文のBERTを利用したコーパス中の全単語を対象とした語義曖昧性解消の研究について、国際会議の論文を発表した。また、日本語の語義曖昧性解消について、英語のコーパスを使って学習したモデルを翻訳により利用する手法について研究会で発表した。さらに、BCCWJという日本語の現代語のコーパスとして最大のコーパスに対して、語義曖昧性解消の手法で分類語彙表番号を語義としてすべてに付与する研究を行い、研究会において発表を行った。これら二つの研究会の論文については、国際会議に投稿予定である。 現在、日本語については、古文コーパス(日本語歴史コーパス)を学習に利用した語義曖昧性解消のモデルと、現代語コーパス(BCCWJ)を学習に利用した語義曖昧性のモデル、また、BabelNetを対象として学習を行った語義曖昧性のモデルの三つのモデルを作成した。これらを使い、最終年は、複数の事前学習モデルを利用した語義曖昧性解消のドメイン適応についての研究を行う予定である。 また、副次的な成果として、去年研究会で発表した、日本語歴史コーパスの古文から現代文への翻訳を事前学習モデルであるT5を用いて行った研究について国際会議で発表を行った。さらに、同様に、古文に対する係り受け解析を比較した「日本語Universal Dependenciesの通時的転移可能性について」について研究会で発表を行った。 さらに、語義曖昧性解消と同様のモデルで解くことができる、読み推定の問題について、『日本経済新聞記事オープンコーパス』の漢字読みの調査と題してワークショップで発表した。また、ユニグラムとバイグラムのBERTによる平仮名の形態素解析の論文を執筆した。 また、二つの文系の研究会で招待講演を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
古文(古い日本語)を対象とした語義曖昧性解消の論文を国際会議で発表した。また、同じ手法を使って、現代文の様々な文書を対象とした語義曖昧性解消についても実験を終えている。さらに、英語モデルを使った日本語の語義曖昧性解消の実験についても終わっており、これらを利用して複数の事前学習モデルを利用した語義曖昧性解消のドメイン適応についての研究を24年度に行う予定である。
|
Strategy for Future Research Activity |
まず、今年研究会に出した二本の論文(『翻訳とBabelNetを利用した日本語の語義曖昧性解消』と『『現代日本語書き言葉均衡コーパス』に対する分類語彙表番号悉皆付与』)については、追加実験を行ったうえで、国際会議またはジャーナル論文に投稿したい。副次的な研究についても国際会議またはジャーナル論文に投稿予定である。 さらに、23年度までに作成した三つの語義曖昧性解消のモデルを利用して、複数の事前学習モデルを利用した語義曖昧性解消のドメイン適応についての研究を24年度に行う予定である。
|
Report
(2 results)
Research Products
(17 results)