Integrated Ensemble Learning with Embedded Vectors in Authorship Attribution
Project/Area Number |
22K12726
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 90020:Library and information science, humanistic and social informatics-related
|
Research Institution | Doshisha University |
Principal Investigator |
金 明哲 同志社大学, 研究開発推進機構, 嘱託研究員 (60275469)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2024: ¥390,000 (Direct Cost: ¥300,000、Indirect Cost: ¥90,000)
Fiscal Year 2023: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2022: ¥2,470,000 (Direct Cost: ¥1,900,000、Indirect Cost: ¥570,000)
|
Keywords | 著者推定 / BERT / 文体特徴量 / 統合的アンサンブル学習 / 言語生成モデルChatGPT / 人工知能(AI) / 埋め込みベクトル / アンサンブル学習 / 深層学習 / 事前学習済みモデル |
Outline of Research at the Start |
BERTは大量の学習データを用いた事前学習済みのモデルに、個別分野のタスクを適応させる汎用モデルである。網羅的かつ大量の学習データを作成し、事前学習させることが困難であるため、日本ではWikipedia、Web記事などに基づいて学習させたBERTが続々公開されている。本研究では、著者推定タスクに焦点を当て、公開されている複数のBERTについて、学習に用いたデータがタスクに与える影響を分析したうえで、これらのBERTを用いたアンサンブル学習、 および複数の文体特徴量と複数のBERTを併用した統合的アンサンブル学習で著者推定の精度を向上させる方法について研究する。
|
Outline of Annual Research Achievements |
前年度では複数のBERTを比較し、事前学習データがタスクに影響を与えること、異なる事前学習データで学習したBERTをアンサンブル学習することにより著者推定精度を向上させることが可能であることを明らかにしました。本年度は、まず前年度の実験結果を再確認し、まとめて論文投稿を行いました。次に研究計画通り、複数BERTのアンサンブル学習結果と複数の文体特徴量4種類(文字のbigram,タグのbigram,タグ付き形態素,文節のパターン)の特徴量を統合的にアンサンブル学習することに関する実験研究を行いました。その結果、単一の文体特徴量及びBERTのみのアンサンブル学習結果より高い正解率で著者を推定する可能性があることが分かりました。また、BERTを用いてニュース記事を学習に基づいた株価の推定に関する研究を進め、その結果をまとめ人工知能専門誌に投稿し、採択されました。 なお、生成型AIの一つChatGPTが社会で大きな反響を起こしている状況を踏まえて、ChatGPTが生成した文章の文体について研究を進めました。ChatGPTとBERTの共通点はともにTransformrsによる埋め込みベクトルアクテクチャを用い、大規模なデータセットを事前学習しています。そこで本年度はChatGPTが生成された文章と人間が作成した文章との識別に関する研究に焦点を与え、実証研究を行った。その結果を国際学術誌に2編の論文を投稿し、採択されました。論文については日本の複数の新聞、アメリカのCommunications of the ACM(2024年3月25日)に取り上げています。関連の論文はresearchmapにアップしました。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
前年度では、まず研究の基盤として、使用するBERTモデルの選択と必要となるコーパス作成を行いました。次に、BERTモデルによる学習データが個別のタスクに与える影響について研究を行い、事前学習データが個別のタスクを解く際のモデルの性能に影響を与えること、さらには異なるコーパスで学習したBERTモデルをアンサンブル学習することにより精度を向上させることが可能であることを明らかにしました。 本年度では、前年度の結果を再確認し、論文にまとめて研究雑誌に投稿しました。さらに、複数の文体特徴量と複数のBERTモデルを統合的に用いたアンサンブル学習の実験を行い、初歩的な結果を得ました。また、BERTモデルを用いてニュース記事を学習し、株価の推定に関する研究を進め、その結果をまとめた論文を人工知能専門紙に掲載しました。さらに、Transformersによる埋め込みベクトルアーキテクチャを用いた生成言語モデルChatGPTが生成する文章の文体に関する研究を進め、その結果を国際学術誌に2編の論文として投稿し、採択されました。研究は計画通りに順調に進めています。
|
Strategy for Future Research Activity |
2024年度では、すでに得た研究成果を丁寧に点検し、論文化して国際学術誌に投稿するする。また、大規模言語モデルと文体との関連の最新動向と新しい課題を模索する。
|
Report
(2 results)
Research Products
(12 results)