研究課題/領域番号 |
22K12726
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分90020:図書館情報学および人文社会情報学関連
|
研究機関 | 同志社大学 |
研究代表者 |
金 明哲 同志社大学, 文化情報学部, 教授 (60275469)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2024年度: 390千円 (直接経費: 300千円、間接経費: 90千円)
2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2022年度: 2,470千円 (直接経費: 1,900千円、間接経費: 570千円)
|
キーワード | 著者推定 / 埋め込みベクトル / BERT / アンサンブル学習 / 深層学習 / 事前学習済みモデル / 統合的アンサンブル学習 |
研究開始時の研究の概要 |
BERTは大量の学習データを用いた事前学習済みのモデルに、個別分野のタスクを適応させる汎用モデルである。網羅的かつ大量の学習データを作成し、事前学習させることが困難であるため、日本ではWikipedia、Web記事などに基づいて学習させたBERTが続々公開されている。本研究では、著者推定タスクに焦点を当て、公開されている複数のBERTについて、学習に用いたデータがタスクに与える影響を分析したうえで、これらのBERTを用いたアンサンブル学習、 および複数の文体特徴量と複数のBERTを併用した統合的アンサンブル学習で著者推定の精度を向上させる方法について研究する。
|
研究実績の概要 |
本年度は、まず深層学習理論に基づいた埋め込みベクトルの一種であるBERTについて、日本語の大規模データを用いた事前学習済みの数種類(京大BERT、東北大BERT、NICT BERT、朝日BERT、青空文庫BERT、青空文庫+WikipediaBERTなど)モデルを収集し、実装実験を行った。同時に著者推定タスクにおいて異なる事前学習データに基づいて構築された複数のBERTの性能比較を行うため、必要となるコーパス(青空文庫から10人、それぞれ20篇の小説、青空文庫外の文豪による小説10人それぞれ20篇を電子化)を作成した。続いて、収集した事前学習済みのBERTモデルについて、著者推定タスクのために作成したコーパスを用いて比較分析を行った。その結果、以下のことを明らかにした。 (1)事前学習済みのBERTは著者推定タスクに有効であるが、本タスクに適応できないBERTがある。(2)青空文庫内の著者の推定においては青空文庫から構築されたBERTの精度が高い。(3)青空文庫外の著者の推定においては、青空文庫から構築されたBERTの精度は(2)の青空文庫内の結果と比べて低くい。(4)いずれの実験コーパスにおいてWikipedia、日本語ビジネスニュース記事で学習されたBERTより、青空文庫で学習させたBERTの精度が高い。(5)事前学習データが個別タスクを解く際のモデルの性能に影響を与えている。(6)異なるコーパスで学習したBERTをアンサンブル学習することにより精度を向上させることが可能である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
本科研申請時点から研究を着実に進めたため。
|
今後の研究の推進方策 |
本タスクにおけるBERTと文体特徴量を用いた著者推定結果との比較分析、異なるBERTと文体特徴量を用いた統合的アンサンブル学習などの研究を進める。また、本課題と関連している大言語モデルを用いた機械翻訳やChatGDPと著者推定および文体分析に関する研究にも裾を広げる。
|