2023 年度実施状況報告書

著者推定における埋め込みベクトルを用いた統合的アンサンブル学習

研究課題

研究課題/領域番号	22K12726
研究機関	同志社大学
研究代表者	金明哲同志社大学, 研究開発推進機構, 嘱託研究員 (60275469)
研究期間 (年度)	2022-04-01 – 2025-03-31
キーワード	著者推定 / BERT / 文体特徴量 / 統合的アンサンブル学習 / 言語生成モデルChatGPT / 人工知能(AI)
研究実績の概要	前年度では複数のBERTを比較し、事前学習データがタスクに影響を与えること、異なる事前学習データで学習したBERTをアンサンブル学習することにより著者推定精度を向上させることが可能であることを明らかにしました。本年度は、まず前年度の実験結果を再確認し、まとめて論文投稿を行いました。次に研究計画通り、複数BERTのアンサンブル学習結果と複数の文体特徴量4種類(文字のbigram，タグのbigram，タグ付き形態素，文節のパターン)の特徴量を統合的にアンサンブル学習することに関する実験研究を行いました。その結果、単一の文体特徴量及びBERTのみのアンサンブル学習結果より高い正解率で著者を推定する可能性があることが分かりました。また、BERTを用いてニュース記事を学習に基づいた株価の推定に関する研究を進め、その結果をまとめ人工知能専門誌に投稿し、採択されました。なお、生成型AIの一つChatGPTが社会で大きな反響を起こしている状況を踏まえて、ChatGPTが生成した文章の文体について研究を進めました。ChatGPTとBERTの共通点はともにTransformrsによる埋め込みベクトルアクテクチャを用い、大規模なデータセットを事前学習しています。そこで本年度はChatGPTが生成された文章と人間が作成した文章との識別に関する研究に焦点を与え、実証研究を行った。その結果を国際学術誌に２編の論文を投稿し、採択されました。論文については日本の複数の新聞、アメリカのCommunications of the ACM（2024年3月25日）に取り上げています。関連の論文はresearchmapにアップしました。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由前年度では、まず研究の基盤として、使用するBERTモデルの選択と必要となるコーパス作成を行いました。次に、BERTモデルによる学習データが個別のタスクに与える影響について研究を行い、事前学習データが個別のタスクを解く際のモデルの性能に影響を与えること、さらには異なるコーパスで学習したBERTモデルをアンサンブル学習することにより精度を向上させることが可能であることを明らかにしました。本年度では、前年度の結果を再確認し、論文にまとめて研究雑誌に投稿しました。さらに、複数の文体特徴量と複数のBERTモデルを統合的に用いたアンサンブル学習の実験を行い、初歩的な結果を得ました。また、BERTモデルを用いてニュース記事を学習し、株価の推定に関する研究を進め、その結果をまとめた論文を人工知能専門紙に掲載しました。さらに、Transformersによる埋め込みベクトルアーキテクチャを用いた生成言語モデルChatGPTが生成する文章の文体に関する研究を進め、その結果を国際学術誌に2編の論文として投稿し、採択されました。研究は計画通りに順調に進めています。
今後の研究の推進方策	2024年度では、すでに得た研究成果を丁寧に点検し、論文化して国際学術誌に投稿するする。また、大規模言語モデルと文体との関連の最新動向と新しい課題を模索する。
次年度使用額が生じた理由	予定している論文投稿料を勘案して人件費を削減したことと、研究に必要な消耗品費用などを次年度に延期したことが主な理由です。

研究成果
(3件)

すべて 2024 2023

すべて雑誌論文 (3件) (うち査読あり 3件)

[雑誌論文] Can we spot fake public comments generated by ChatGPT(-3.5, -4)?: Japanese stylometric analysis expose emulation created by one-shot learning2024
- 著者名/発表者名
  Zaitsu Wataru、Jin Mingzhe、Ishihara Shunichi、Tsuge Satoru、Inaba Mitsuyuki
- 雑誌名
  
  PLOS ONE
  
  巻: 19 ページ: 1～10
- DOI
  10.1371/journal.pone.0299031
- 査読あり
[雑誌論文] Distinguishing ChatGPT(-3.5, -4)-generated and human-written papers through Japanese stylometric analysis2023
- 著者名/発表者名
  Zaitsu Wataru、Jin Mingzhe
- 雑誌名
  
  PLOS ONE
  
  巻: 18 ページ: 1～10
- DOI
  10.1371/journal.pone.0288453
- 査読あり
[雑誌論文] Analysis of Stock Market Movement Prediction withPre-trained Language model2023
- 著者名/発表者名
  李金陽、Doshisha University、金明哲、宿久洋、Doshisha University & Kyoto University、Doshisha University
- 雑誌名
  
  人工智能研究
  
  巻: 1 ページ: 26～39
- DOI
  10.55375/aif.2023.2.3
- 査読あり

2023 年度 実施状況報告書

著者推定における埋め込みベクトルを用いた統合的アンサンブル学習

研究代表者

金 明哲 同志社大学, 研究開発推進機構, 嘱託研究員 (60275469)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Can we spot fake public comments generated by ChatGPT(-3.5, -4)?: Japanese stylometric analysis expose emulation created by one-shot learning2024

著者名/発表者名

雑誌名

DOI

[雑誌論文] Distinguishing ChatGPT(-3.5, -4)-generated and human-written papers through Japanese stylometric analysis2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] Analysis of Stock Market Movement Prediction withPre-trained Language model2023

著者名/発表者名

雑誌名

DOI

2023 年度実施状況報告書

金明哲同志社大学, 研究開発推進機構, 嘱託研究員 (60275469)