2023 年度実績報告書

和漢書テキストデータベースに対する知的情報検索システムの研究開発

研究課題

研究課題/領域番号	22H03903
配分区分	補助金
研究機関	大阪大学
研究代表者	肖川大阪大学, 大学院情報科学研究科, 准教授 (10643900)
研究分担者	佐々木勇和大阪大学, 大学院情報科学研究科, 助教 (40745147) 石川佳治名古屋大学, 情報学研究科, 教授 (80263440) 程永超東北大学, 東北アジア研究センター, 准教授 (80823103)
研究期間 (年度)	2022-04-01 – 2026-03-31
キーワード	情報検索 / 和漢書 / 知識ベース / データベース
研究実績の概要	本年度は、和漢書テキストに対する漢文固有表現の抽出、共参照解析、知識ベースの構築を行った。具体的には、トークンフリーの事前学習済みモデル(ByT5)を活用した。これまでの最も広く使用されている事前学習済み言語モデルは、単語や部分単語単位に対応するトークンのシーケンスに作用する。これに対して、トークンフリーのモデルは、生のテキスト（バイトまたは文字）に直接作用し、多くの利点を持っている。そのため、ByT5に基づく漢文の事前学習済み言語モデルを開発し、漢文の固有名詞認識のために学習済みモデルをチューニングした。チューニングされたモデルは、既存の手法を大幅に上回る性能を発揮し、いわゆるグラウンドトゥルース（C-CLUE）のエラーさえも訂正できる。また、和漢書の情報検索においては、知識ベースを活用することで、固有名詞間の関係が明確になり、検索結果の品質が向上する。そのため、和漢書テキストデータベースと密結合した知識ベースの構築を行った。特に、人物間の関係と人物・官職間の関係についての知識ベースを構築した。研究成果はDEIM 2024学会で発表された。詳細な研究成果はACL ARRに提出される予定である。さらに、データベース間での統合を促進するために、異なるデータを統合できるテーブル埋め込み手法を開発した。膨大なデータに対応するために、大規模な高次元データ検索に焦点を当て、効率的な高次元データ索引技術および類似性に基づく問合せ処理方法を活用した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由当初の計画通り、トークンフリーの事前学習済みモデルを用いた。特に、任意の言語のテキストを処理することができ、ノイズに対してより堅牢であり、複雑でエラーが発生しやすいテキスト前処理パイプラインを取り除くことができた。
今後の研究の推進方策	漢文固有表現の抽出と共参照解析のみならず、様々な漢文タスクを解決するため、一般化能力を持つモデルの開発に取り組む。特に、Llama 3などの低価格のGPUでローカルに実行可能な大規模言語モデルを用いて、組み込みの漢文ドメイン知識を提供したモデルをカスタマイズする。

研究成果
(18件)

すべて 2024 2023 その他

すべて国際共同研究 (3件) 雑誌論文 (4件) (うち国際共著 2件、査読あり 4件、オープンアクセス 3件) 学会発表 (10件) (うち国際学会 5件) 備考 (1件)

[国際共同研究] フォーダム大学(米国)
- 国名
  米国
- 外国機関名
  フォーダム大学
[国際共同研究] ニューサウスウェールズ大学(オーストラリア)
- 国名
  オーストラリア
- 外国機関名
  ニューサウスウェールズ大学
[国際共同研究] アントグループ/香港大学/広州大学(中国)
- 国名
  中国
- 外国機関名
  アントグループ/香港大学/広州大学
- 他の機関数
  5
[雑誌論文] Utilization of Information Entropy in Training and Evaluation of Students’ Abstraction Performance and Algorithm Efficiency in Programming2024
- 著者名/発表者名
  Wu Zengqing、Liu Huizhong、Xiao Chuan
- 雑誌名
  
  IEEE Transactions on Education
  
  巻: 67 ページ: 266～281
- DOI
  10.1109/TE.2024.3354297
- 査読あり / 国際共著
[雑誌論文] Benchmark for Personalized Federated Learning2024
- 著者名/発表者名
  Matsuda Koji、Sasaki Yuya、Xiao Chuan、Onizuka Makoto
- 雑誌名
  
  IEEE Open Journal of the Computer Society
  
  巻: 5 ページ: 2～13
- DOI
  10.1109/OJCS.2023.3332351
- 査読あり / オープンアクセス
[雑誌論文] High-Ratio Compression for Machine-Generated Data2023
- 著者名/発表者名
  Zhang Jiujing、Shen Zhitao、Yang Shiyu、Meng Lingkai、Xiao Chuan、Jia Wei、Li Yue、Sun Qinhui、Zhang Wenjie、Lin Xuemin
- 雑誌名
  
  Proceedings of the ACM on Management of Data
  
  巻: 1 ページ: 1～27
- DOI
  10.1145/3626732
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] DeepJoin: Joinable Table Discovery with Pre-Trained Language Models2023
- 著者名/発表者名
  Dong Yuyang、Xiao Chuan、Nozawa Takuma、Enomoto Masafumi、Oyamada Masafumi
- 雑誌名
  
  Proceedings of the VLDB Endowment
  
  巻: 16 ページ: 2458～2470
- DOI
  10.14778/3603581.3603587
- 査読あり / オープンアクセス
[学会発表] An Efficient Diversity-Aware Method for the Empty-Answer Problem2024
- 著者名/発表者名
  Yuto Ikeda、Chuan Xiao、Makoto Onizuka
- 学会等名
  26th International Workshop on Design, Optimization, Languages and Analytical Processing of Big Data (DOLAP)
- 国際学会
[学会発表] A Token-Free Approach to Entity-Based Keyword Search in Classical Chinese2024
- 著者名/発表者名
  蔣 中慶、呉増青、肖川、佐々木勇和、鬼塚真
- 学会等名
  第16回データ工学と情報マネジメントに関するフォーラム(DEIM)
[学会発表] 自律分散型データ統合技術Dejimaの性能分析2024
- 著者名/発表者名
  吉田凌河、肖川、鬼塚真
- 学会等名
  第16回データ工学と情報マネジメントに関するフォーラム(DEIM)
[学会発表] empty-answer問題に対する多様性を考慮した効率的な探索手法2024
- 著者名/発表者名
  池田悠人、肖川、鬼塚真
- 学会等名
  第16回データ工学と情報マネジメントに関するフォーラム(DEIM)
[学会発表] Jellyfish: データ前処理のための大規模言語モデル2024
- 著者名/発表者名
  張皓辰、董于洋、肖川、小山田昌史
- 学会等名
  第16回データ工学と情報マネジメントに関するフォーラム(DEIM)
[学会発表] SABM：大規模言語モデルに基づくエージェントベース実世界シミュレーション2024
- 著者名/発表者名
  呉増青、彭潤、韓勗、鄭舒元、肖川
- 学会等名
  第16回データ工学と情報マネジメントに関するフォーラム(DEIM)
[学会発表] Smart Agent-Based Modeling: On the Use of Large Language Models in Computer Simulations2023
- 著者名/発表者名
  Chuan Xiao
- 学会等名
  5th joint Korea-Japan Workshop on Management of Data (KJDM)
- 国際学会
[学会発表] CAGAIN: Column Attention Generative Adversarial Imputation Networks2023
- 著者名/発表者名
  Kawagoshi Jun、Dong Yuyang、Nozawa Takuma、Xiao Chuan
- 学会等名
  34th International Conference on Database and Expert Systems Applications (DEXA)
- 国際学会
[学会発表] A Method of Image Dehazing Based on Atmospheric Veil Prediction by ResNet2023
- 著者名/発表者名
  Zhang Jie、Li Fan、Kang Mengfei、Luo Xiongbiao、Zhao JIng、Xiao Chuan、Du Haipeng、Wang Huaijun
- 学会等名
  2nd Workshop on User-Centric Narrative Summarization of Long Videos (NarSUM)
- 国際学会
[学会発表] "Guinea Pig Trials" Utilizing GPT: A Novel Smart Agent-Based Modeling Approach for Studying Firm Competition and Collusion2023
- 著者名/発表者名
  Xu Han、Zengqing Wu、Chuan Xiao
- 学会等名
  Conference on Information Systems and Technology (CIST)
- 国際学会
[備考] 研究者ホームページ
- URL
  https://sites.google.com/site/chuanxiao1983/

2023 年度 実績報告書

和漢書テキストデータベースに対する知的情報検索システムの研究開発

研究代表者

肖 川 大阪大学, 大学院情報科学研究科, 准教授 (10643900)

現在までの達成度 (区分)

理由

研究成果

[国際共同研究] フォーダム大学(米国)

国名

外国機関名

[国際共同研究] ニューサウスウェールズ大学(オーストラリア)

国名

外国機関名

[国際共同研究] アントグループ/香港大学/広州大学(中国)

国名

外国機関名

他の機関数

[雑誌論文] Utilization of Information Entropy in Training and Evaluation of Students’ Abstraction Performance and Algorithm Efficiency in Programming2024

著者名/発表者名

雑誌名

DOI

[雑誌論文] Benchmark for Personalized Federated Learning2024

著者名/発表者名

雑誌名

DOI

[雑誌論文] High-Ratio Compression for Machine-Generated Data2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] DeepJoin: Joinable Table Discovery with Pre-Trained Language Models2023

著者名/発表者名

雑誌名

DOI

[学会発表] An Efficient Diversity-Aware Method for the Empty-Answer Problem2024

著者名/発表者名

学会等名

[学会発表] A Token-Free Approach to Entity-Based Keyword Search in Classical Chinese2024

著者名/発表者名

学会等名

[学会発表] 自律分散型データ統合技術Dejimaの性能分析2024

著者名/発表者名

学会等名

[学会発表] empty-answer問題に対する多様性を考慮した効率的な探索手法2024

著者名/発表者名

学会等名

[学会発表] Jellyfish: データ前処理のための大規模言語モデル2024

著者名/発表者名

学会等名

[学会発表] SABM：大規模言語モデルに基づくエージェントベース実世界シミュレーション2024

著者名/発表者名

学会等名

[学会発表] Smart Agent-Based Modeling: On the Use of Large Language Models in Computer Simulations2023

著者名/発表者名

学会等名

[学会発表] CAGAIN: Column Attention Generative Adversarial Imputation Networks2023

著者名/発表者名

学会等名

[学会発表] A Method of Image Dehazing Based on Atmospheric Veil Prediction by ResNet2023

著者名/発表者名

学会等名

[学会発表] "Guinea Pig Trials" Utilizing GPT: A Novel Smart Agent-Based Modeling Approach for Studying Firm Competition and Collusion2023

著者名/発表者名

学会等名

[備考] 研究者ホームページ

URL

2023 年度実績報告書

肖川大阪大学, 大学院情報科学研究科, 准教授 (10643900)