2022 Fiscal Year Research-status Report
Integrated Ensemble Learning with Embedded Vectors in Authorship Attribution
Project/Area Number |
22K12726
|
Research Institution | Doshisha University |
Principal Investigator |
金 明哲 同志社大学, 文化情報学部, 教授 (60275469)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | 著者推定 / 埋め込みベクトル / BERT / アンサンブル学習 |
Outline of Annual Research Achievements |
本年度は、まず深層学習理論に基づいた埋め込みベクトルの一種であるBERTについて、日本語の大規模データを用いた事前学習済みの数種類(京大BERT、東北大BERT、NICT BERT、朝日BERT、青空文庫BERT、青空文庫+WikipediaBERTなど)モデルを収集し、実装実験を行った。同時に著者推定タスクにおいて異なる事前学習データに基づいて構築された複数のBERTの性能比較を行うため、必要となるコーパス(青空文庫から10人、それぞれ20篇の小説、青空文庫外の文豪による小説10人それぞれ20篇を電子化)を作成した。続いて、収集した事前学習済みのBERTモデルについて、著者推定タスクのために作成したコーパスを用いて比較分析を行った。その結果、以下のことを明らかにした。 (1)事前学習済みのBERTは著者推定タスクに有効であるが、本タスクに適応できないBERTがある。(2)青空文庫内の著者の推定においては青空文庫から構築されたBERTの精度が高い。(3)青空文庫外の著者の推定においては、青空文庫から構築されたBERTの精度は(2)の青空文庫内の結果と比べて低くい。(4)いずれの実験コーパスにおいてWikipedia、日本語ビジネスニュース記事で学習されたBERTより、青空文庫で学習させたBERTの精度が高い。(5)事前学習データが個別タスクを解く際のモデルの性能に影響を与えている。(6)異なるコーパスで学習したBERTをアンサンブル学習することにより精度を向上させることが可能である。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本科研申請時点から研究を着実に進めたため。
|
Strategy for Future Research Activity |
本タスクにおけるBERTと文体特徴量を用いた著者推定結果との比較分析、異なるBERTと文体特徴量を用いた統合的アンサンブル学習などの研究を進める。また、本課題と関連している大言語モデルを用いた機械翻訳やChatGDPと著者推定および文体分析に関する研究にも裾を広げる。
|
Causes of Carryover |
機器の購入を次年度に見送りしたこと、コロナのため研究出張を控えたことなど。
|
Research Products
(9 results)