著者推定における埋め込みベクトルを用いた統合的アンサンブル学習

研究課題

研究課題/領域番号	22K12726
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分90020:図書館情報学および人文社会情報学関連
研究機関	同志社大学
研究代表者	金明哲同志社大学, 研究開発推進機構, 嘱託研究員 (60275469)
研究期間 (年度)	2022-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,160千円 (直接経費: 3,200千円、間接経費: 960千円) 2024年度: 390千円 (直接経費: 300千円、間接経費: 90千円) 2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円) 2022年度: 2,470千円 (直接経費: 1,900千円、間接経費: 570千円)
キーワード	著者推定 / BERT / 文体特徴量 / 統合的アンサンブル学習 / 言語生成モデルChatGPT / 人工知能(AI) / 埋め込みベクトル / アンサンブル学習 / 深層学習 / 事前学習済みモデル
研究開始時の研究の概要	BERTは大量の学習データを用いた事前学習済みのモデルに、個別分野のタスクを適応させる汎用モデルである。網羅的かつ大量の学習データを作成し、事前学習させることが困難であるため、日本ではWikipedia、Ｗeb記事などに基づいて学習させたBERTが続々公開されている。本研究では、著者推定タスクに焦点を当て、公開されている複数のBERTについて、学習に用いたデータがタスクに与える影響を分析したうえで、これらのBERTを用いたアンサンブル学習、および複数の文体特徴量と複数のBERTを併用した統合的アンサンブル学習で著者推定の精度を向上させる方法について研究する。
研究実績の概要	前年度では複数のBERTを比較し、事前学習データがタスクに影響を与えること、異なる事前学習データで学習したBERTをアンサンブル学習することにより著者推定精度を向上させることが可能であることを明らかにしました。本年度は、まず前年度の実験結果を再確認し、まとめて論文投稿を行いました。次に研究計画通り、複数BERTのアンサンブル学習結果と複数の文体特徴量4種類(文字のbigram，タグのbigram，タグ付き形態素，文節のパターン)の特徴量を統合的にアンサンブル学習することに関する実験研究を行いました。その結果、単一の文体特徴量及びBERTのみのアンサンブル学習結果より高い正解率で著者を推定する可能性があることが分かりました。また、BERTを用いてニュース記事を学習に基づいた株価の推定に関する研究を進め、その結果をまとめ人工知能専門誌に投稿し、採択されました。なお、生成型AIの一つChatGPTが社会で大きな反響を起こしている状況を踏まえて、ChatGPTが生成した文章の文体について研究を進めました。ChatGPTとBERTの共通点はともにTransformrsによる埋め込みベクトルアクテクチャを用い、大規模なデータセットを事前学習しています。そこで本年度はChatGPTが生成された文章と人間が作成した文章との識別に関する研究に焦点を与え、実証研究を行った。その結果を国際学術誌に２編の論文を投稿し、採択されました。論文については日本の複数の新聞、アメリカのCommunications of the ACM（2024年3月25日）に取り上げています。関連の論文はresearchmapにアップしました。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由前年度では、まず研究の基盤として、使用するBERTモデルの選択と必要となるコーパス作成を行いました。次に、BERTモデルによる学習データが個別のタスクに与える影響について研究を行い、事前学習データが個別のタスクを解く際のモデルの性能に影響を与えること、さらには異なるコーパスで学習したBERTモデルをアンサンブル学習することにより精度を向上させることが可能であることを明らかにしました。本年度では、前年度の結果を再確認し、論文にまとめて研究雑誌に投稿しました。さらに、複数の文体特徴量と複数のBERTモデルを統合的に用いたアンサンブル学習の実験を行い、初歩的な結果を得ました。また、BERTモデルを用いてニュース記事を学習し、株価の推定に関する研究を進め、その結果をまとめた論文を人工知能専門紙に掲載しました。さらに、Transformersによる埋め込みベクトルアーキテクチャを用いた生成言語モデルChatGPTが生成する文章の文体に関する研究を進め、その結果を国際学術誌に2編の論文として投稿し、採択されました。研究は計画通りに順調に進めています。
今後の研究の推進方策	2024年度では、すでに得た研究成果を丁寧に点検し、論文化して国際学術誌に投稿するする。また、大規模言語モデルと文体との関連の最新動向と新しい課題を模索する。

報告書

(2件)

2023 実施状況報告書
2022 実施状況報告書

研究成果
(12件)

すべて 2024 2023 2022

すべて雑誌論文 (8件) (うち国際共著 4件、査読あり 8件、オープンアクセス 6件) 学会発表 (3件) (うち招待講演 1件) 図書 (1件)

[雑誌論文] Can we spot fake public comments generated by ChatGPT(-3.5, -4)?: Japanese stylometric analysis expose emulation created by one-shot learning2024
- 著者名/発表者名
  Zaitsu Wataru、Jin Mingzhe、Ishihara Shunichi、Tsuge Satoru、Inaba Mitsuyuki
- 雑誌名
  
  PLOS ONE
  
  巻: 19 号: 3 ページ: 1-10
- DOI
  10.1371/journal.pone.0299031
- 関連する報告書
  2023 実施状況報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Distinguishing ChatGPT(-3.5, -4)-generated and human-written papers through Japanese stylometric analysis2023
- 著者名/発表者名
  Zaitsu Wataru、Jin Mingzhe
- 雑誌名
  
  PLOS ONE
  
  巻: 18 号: 8 ページ: 1-10
- DOI
  10.1371/journal.pone.0288453
- 関連する報告書
  2023 実施状況報告書
- 査読あり
[雑誌論文] Analysis of Stock Market Movement Prediction withPre-trained Language model2023
- 著者名/発表者名
  李金陽、Doshisha University、金明哲、宿久洋、Doshisha University & Kyoto University、Doshisha University
- 雑誌名
  
  人工智能研究
  
  巻: 1 号: 2 ページ: 26-39
- DOI
  10.55375/aif.2023.2.3
- 関連する報告書
  2023 実施状況報告書
- 査読あり
[雑誌論文] Is word length inaccurate for authorship attribution?2022
- 著者名/発表者名
  Zheng Wanwan、Jin Mingzhe
- 雑誌名
  
  Digital Scholarship in the Humanities
  
  巻: 38 号: 2 ページ: 875-890
- DOI
  10.1093/llc/fqac067
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] A review on authorship attribution in text mining2022
- 著者名/発表者名
  Zheng Wanwan、Jin Mingzhe
- 雑誌名
  
  WIREs Computational Statistics
  
  巻: 15 号: 2
- DOI
  10.1002/wics.1584
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] 異ジャンル文章が混在した場合における著者識別分析2022
- 著者名/発表者名
  柳燁佳, 金明哲
- 雑誌名
  
  データ分析の理論と応用
  
  巻: 11 ページ: 1-14
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Improving the Performance of Feature Selection Methods with Low-Sample-Size Data2022
- 著者名/発表者名
  Zheng Wanwan、Jin Mingzhe
- 雑誌名
  
  The Computer Journal
  
  巻: 00 号: 7 ページ: 00-00
- DOI
  10.1093/comjnl/bxac033
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] 現代小説の文末表現における通時変化の統計モデリングと分析2022
- 著者名/発表者名
  李広微, 金明哲
- 雑誌名
  
  計量国語学
  
  巻: 33(5) ページ: 309-324
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス
[学会発表] 著者推定における事前学習済みBERTを用いたアンサンブル学習法の提案2022
- 著者名/発表者名
  神田泰誠，柳燁佳，金明哲
- 学会等名
  信学技報(電子情報通信学会)
- 関連する報告書
  2022 実施状況報告書
[学会発表] 著者推定における異なる事前学習データを持つ日本語版BERTの性能比較分析2022
- 著者名/発表者名
  神田泰誠，柳燁佳，金明哲
- 学会等名
  日本行動計量学会
- 関連する報告書
  2022 実施状況報告書
[学会発表] Stylometryから連想する計量的表現研究2022
- 著者名/発表者名
  金　明哲
- 学会等名
  表現学会
- 関連する報告書
  2022 実施状況報告書
- 招待講演
[図書] テキストデータマネジメント2022
- 著者名/発表者名
  波多野賢治、天笠俊之、鈴木優、宮崎純、楠和馬
- 総ページ数
  242
- 出版者
  岩波書店
- ISBN
  4000298992
- 関連する報告書
  2022 実施状況報告書

著者推定における埋め込みベクトルを用いた統合的アンサンブル学習

研究代表者

金 明哲 同志社大学, 研究開発推進機構, 嘱託研究員 (60275469)

4,160千円 (直接経費: 3,200千円、間接経費: 960千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] Can we spot fake public comments generated by ChatGPT(-3.5, -4)?: Japanese stylometric analysis expose emulation created by one-shot learning2024

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Distinguishing ChatGPT(-3.5, -4)-generated and human-written papers through Japanese stylometric analysis2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Analysis of Stock Market Movement Prediction withPre-trained Language model2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Is word length inaccurate for authorship attribution?2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] A review on authorship attribution in text mining2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] 異ジャンル文章が混在した場合における著者識別分析2022

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Improving the Performance of Feature Selection Methods with Low-Sample-Size Data2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] 現代小説の文末表現における通時変化の統計モデリングと分析2022

著者名/発表者名

雑誌名

関連する報告書

[学会発表] 著者推定における事前学習済みBERTを用いたアンサンブル学習法の提案2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 著者推定における異なる事前学習データを持つ日本語版BERTの性能比較分析2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Stylometryから連想する計量的表現研究2022

著者名/発表者名

学会等名

関連する報告書

[図書] テキストデータマネジメント2022

著者名/発表者名

総ページ数

出版者

ISBN

関連する報告書

金明哲同志社大学, 研究開発推進機構, 嘱託研究員 (60275469)