2022 年度実施状況報告書

著者推定における埋め込みベクトルを用いた統合的アンサンブル学習

研究課題

研究課題/領域番号	22K12726
研究機関	同志社大学
研究代表者	金明哲同志社大学, 文化情報学部, 教授 (60275469)
研究期間 (年度)	2022-04-01 – 2025-03-31
キーワード	著者推定 / 埋め込みベクトル / BERT / アンサンブル学習
研究実績の概要	本年度は、まず深層学習理論に基づいた埋め込みベクトルの一種であるBERTについて、日本語の大規模データを用いた事前学習済みの数種類（京大BERT、東北大BERT、NICT BERT、朝日BERT、青空文庫BERT、青空文庫＋WikipediaBERTなど）モデルを収集し、実装実験を行った。同時に著者推定タスクにおいて異なる事前学習データに基づいて構築された複数のBERTの性能比較を行うため、必要となるコーパス（青空文庫から10人、それぞれ20篇の小説、青空文庫外の文豪による小説10人それぞれ20篇を電子化）を作成した。続いて、収集した事前学習済みのBERTモデルについて、著者推定タスクのために作成したコーパスを用いて比較分析を行った。その結果、以下のことを明らかにした。（１）事前学習済みのBERTは著者推定タスクに有効であるが、本タスクに適応できないBERTがある。（２）青空文庫内の著者の推定においては青空文庫から構築されたBERTの精度が高い。（３）青空文庫外の著者の推定においては、青空文庫から構築されたBERTの精度は（２）の青空文庫内の結果と比べて低くい。（４）いずれの実験コーパスにおいてWikipedia、日本語ビジネスニュース記事で学習されたBERTより、青空文庫で学習させたBERTの精度が高い。（５）事前学習データが個別タスクを解く際のモデルの性能に影響を与えている。（６）異なるコーパスで学習したBERTをアンサンブル学習することにより精度を向上させることが可能である。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由本科研申請時点から研究を着実に進めたため。
今後の研究の推進方策	本タスクにおけるBERTと文体特徴量を用いた著者推定結果との比較分析、異なるBERTと文体特徴量を用いた統合的アンサンブル学習などの研究を進める。また、本課題と関連している大言語モデルを用いた機械翻訳やChatGDPと著者推定および文体分析に関する研究にも裾を広げる。
次年度使用額が生じた理由	機器の購入を次年度に見送りしたこと、コロナのため研究出張を控えたことなど。

研究成果
(9件)

すべて 2022

すべて雑誌論文 (5件) (うち国際共著 3件、査読あり 5件、オープンアクセス 2件) 学会発表 (3件) (うち招待講演 1件) 図書 (1件)

[雑誌論文] Is word length inaccurate for authorship attribution?2022
- 著者名/発表者名
  Zheng Wanwan、Jin Mingzhe
- 雑誌名
  
  Digital Scholarship in the Humanities
  
  巻: 38 ページ: -
- DOI
  10.1093/llc/fqac067
- 査読あり / 国際共著
[雑誌論文] A review on authorship attribution in text mining2022
- 著者名/発表者名
  Zheng Wanwan、Jin Mingzhe
- 雑誌名
  
  WIREs Computational Statistics
  
  巻: 15 ページ: -
- DOI
  10.1002/wics.1584
- 査読あり / 国際共著
[雑誌論文] 異ジャンル文章が混在した場合における著者識別分析2022
- 著者名/発表者名
  柳燁佳, 金明哲
- 雑誌名
  
  データ分析の理論と応用
  
  巻: 11 ページ: 1-14
- 査読あり / オープンアクセス
[雑誌論文] Improving the Performance of Feature Selection Methods with Low-Sample-Size Data2022
- 著者名/発表者名
  Zheng Wanwan、Jin Mingzhe
- 雑誌名
  
  The Computer Journal
  
  巻: 66 ページ: -
- DOI
  10.1093/comjnl/bxac033
- 査読あり / 国際共著
[雑誌論文] 現代小説の文末表現における通時変化の統計モデリングと分析2022
- 著者名/発表者名
  李広微, 金明哲
- 雑誌名
  
  計量国語学
  
  巻: 33(5) ページ: 309-324
- 査読あり / オープンアクセス
[学会発表] 著者推定における事前学習済みBERTを用いたアンサンブル学習法の提案2022
- 著者名/発表者名
  神田泰誠，柳燁佳，金明哲
- 学会等名
  信学技報(電子情報通信学会)
[学会発表] 著者推定における異なる事前学習データを持つ日本語版BERTの性能比較分析2022
- 著者名/発表者名
  神田泰誠，柳燁佳，金明哲
- 学会等名
  日本行動計量学会
[学会発表] Stylometryから連想する計量的表現研究2022
- 著者名/発表者名
  金　明哲
- 学会等名
  表現学会
- 招待講演
[図書] テキストデータマネジメント2022
- 著者名/発表者名
  波多野賢治、天笠俊之、鈴木優、宮崎純、楠和馬
- 総ページ数
  242
- 出版者
  岩波書店
- ISBN
  4000298992

2022 年度 実施状況報告書

著者推定における埋め込みベクトルを用いた統合的アンサンブル学習

研究代表者

金 明哲 同志社大学, 文化情報学部, 教授 (60275469)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Is word length inaccurate for authorship attribution?2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] A review on authorship attribution in text mining2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] 異ジャンル文章が混在した場合における著者識別分析2022

著者名/発表者名

雑誌名

[雑誌論文] Improving the Performance of Feature Selection Methods with Low-Sample-Size Data2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] 現代小説の文末表現における通時変化の統計モデリングと分析2022

著者名/発表者名

雑誌名

[学会発表] 著者推定における事前学習済みBERTを用いたアンサンブル学習法の提案2022

著者名/発表者名

学会等名

[学会発表] 著者推定における異なる事前学習データを持つ日本語版BERTの性能比較分析2022

著者名/発表者名

学会等名

[学会発表] Stylometryから連想する計量的表現研究2022

著者名/発表者名

学会等名

[図書] テキストデータマネジメント2022

著者名/発表者名

総ページ数

出版者

ISBN

2022 年度実施状況報告書

金明哲同志社大学, 文化情報学部, 教授 (60275469)