和漢書テキストデータベースに対する知的情報検索システムの研究開発

研究課題

研究課題/領域番号	23K25157
補助金の研究課題番号	22H03903 (2022-2023)
研究種目	基盤研究(B)
配分区分	基金 (2024) 補助金 (2022-2023)
応募区分	一般
審査区分	小区分90020:図書館情報学および人文社会情報学関連
研究機関	大阪大学
研究代表者	肖川大阪大学, 大学院情報科学研究科, 准教授 (10643900)
研究分担者	佐々木勇和大阪大学, 大学院情報科学研究科, 助教 (40745147) 石川佳治名古屋大学, 情報学研究科, 教授 (80263440) 程永超東北大学, 東北アジア研究センター, 准教授 (80823103)
研究期間 (年度)	2022-04-01 – 2026-03-31
研究課題ステータス	交付 (2024年度)
配分額 *注記	16,900千円 (直接経費: 13,000千円、間接経費: 3,900千円) 2025年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円) 2024年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円) 2023年度: 4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円) 2022年度: 4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)
キーワード	情報検索 / 和漢書 / データベース / 知識ベース
研究開始時の研究の概要	本研究では、情報科学と歴史・文化学の融合を目指し、テキスト化した和漢書データを対象として、和漢書テキストデータベースに適用できる知的情報検索手法とシステムの開発に関する研究を行う。このような動機のもとで、漢文固有表現の抽出と統合、和漢書テキストデータベースと密結合した知識ベースの構築、和漢書テキストに対する固有名詞の共参照解析、および情報検索フレームワークの構築・システムの実装を進める。本研究の成果によって、東アジアの歴史・文化研究を積極的に支援するのみならず、人文・社会系の他の研究分野に応用することも期待される。
研究実績の概要	本年度は、和漢書テキストに対する漢文固有表現の抽出、共参照解析、知識ベースの構築を行った。具体的には、トークンフリーの事前学習済みモデル(ByT5)を活用した。これまでの最も広く使用されている事前学習済み言語モデルは、単語や部分単語単位に対応するトークンのシーケンスに作用する。これに対して、トークンフリーのモデルは、生のテキスト（バイトまたは文字）に直接作用し、多くの利点を持っている。そのため、ByT5に基づく漢文の事前学習済み言語モデルを開発し、漢文の固有名詞認識のために学習済みモデルをチューニングした。チューニングされたモデルは、既存の手法を大幅に上回る性能を発揮し、いわゆるグラウンドトゥルース（C-CLUE）のエラーさえも訂正できる。また、和漢書の情報検索においては、知識ベースを活用することで、固有名詞間の関係が明確になり、検索結果の品質が向上する。そのため、和漢書テキストデータベースと密結合した知識ベースの構築を行った。特に、人物間の関係と人物・官職間の関係についての知識ベースを構築した。研究成果はDEIM 2024学会で発表された。詳細な研究成果はACL ARRに提出される予定である。さらに、データベース間での統合を促進するために、異なるデータを統合できるテーブル埋め込み手法を開発した。膨大なデータに対応するために、大規模な高次元データ検索に焦点を当て、効率的な高次元データ索引技術および類似性に基づく問合せ処理方法を活用した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由当初の計画通り、トークンフリーの事前学習済みモデルを用いた。特に、任意の言語のテキストを処理することができ、ノイズに対してより堅牢であり、複雑でエラーが発生しやすいテキスト前処理パイプラインを取り除くことができた。
今後の研究の推進方策	漢文固有表現の抽出と共参照解析のみならず、様々な漢文タスクを解決するため、一般化能力を持つモデルの開発に取り組む。特に、Llama 3などの低価格のGPUでローカルに実行可能な大規模言語モデルを用いて、組み込みの漢文ドメイン知識を提供したモデルをカスタマイズする。

報告書

(2件)

2023 実績報告書
2022 実績報告書

研究成果
(23件)

すべて 2024 2023 2022 その他

すべて国際共同研究 (3件) 雑誌論文 (5件) (うち国際共著 2件、査読あり 5件、オープンアクセス 4件) 学会発表 (14件) (うち国際学会 5件) 備考 (1件)

[国際共同研究] フォーダム大学(米国)
- 関連する報告書
  2023 実績報告書
[国際共同研究] ニューサウスウェールズ大学(オーストラリア)
- 関連する報告書
  2023 実績報告書
[国際共同研究] アントグループ/香港大学/広州大学(中国)
- 関連する報告書
  2023 実績報告書
[雑誌論文] Utilization of Information Entropy in Training and Evaluation of Students’ Abstraction Performance and Algorithm Efficiency in Programming2024
- 著者名/発表者名
  Wu Zengqing、Liu Huizhong、Xiao Chuan
- 雑誌名
  
  IEEE Transactions on Education
  
  巻: 67 号: 2 ページ: 266-281
- DOI
  10.1109/te.2024.3354297
- 関連する報告書
  2023 実績報告書
- 査読あり / 国際共著
[雑誌論文] Benchmark for Personalized Federated Learning2024
- 著者名/発表者名
  Matsuda Koji、Sasaki Yuya、Xiao Chuan、Onizuka Makoto
- 雑誌名
  
  IEEE Open Journal of the Computer Society
  
  巻: 5 ページ: 2-13
- DOI
  10.1109/ojcs.2023.3332351
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] High-Ratio Compression for Machine-Generated Data2023
- 著者名/発表者名
  Zhang Jiujing、Shen Zhitao、Yang Shiyu、Meng Lingkai、Xiao Chuan、Jia Wei、Li Yue、Sun Qinhui、Zhang Wenjie、Lin Xuemin
- 雑誌名
  
  Proceedings of the ACM on Management of Data
  
  巻: 1 号: 4 ページ: 1-27
- DOI
  10.1145/3626732
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] DeepJoin: Joinable Table Discovery with Pre-Trained Language Models2023
- 著者名/発表者名
  Dong Yuyang、Xiao Chuan、Nozawa Takuma、Enomoto Masafumi、Oyamada Masafumi
- 雑誌名
  
  Proceedings of the VLDB Endowment
  
  巻: 16 号: 10 ページ: 2458-2470
- DOI
  10.14778/3603581.3603587
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] MQH: Locality Sensitive Hashing on Multi-level Quantization Errors for Point-to-Hyperplane Distances2022
- 著者名/発表者名
  Kejing Lu, Yoshiharu Ishikawa, Chuan Xiao
- 雑誌名
  
  Proceedings of the VLDB Endowment
  
  巻: 16 号: 4 ページ: 864-876
- DOI
  10.14778/3574245.3574269
- 関連する報告書
  2022 実績報告書
- 査読あり / オープンアクセス
[学会発表] An Efficient Diversity-Aware Method for the Empty-Answer Problem2024
- 著者名/発表者名
  Yuto Ikeda、Chuan Xiao、Makoto Onizuka
- 学会等名
  26th International Workshop on Design, Optimization, Languages and Analytical Processing of Big Data (DOLAP)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] A Token-Free Approach to Entity-Based Keyword Search in Classical Chinese2024
- 著者名/発表者名
  蔣 中慶、呉増青、肖川、佐々木勇和、鬼塚真
- 学会等名
  第16回データ工学と情報マネジメントに関するフォーラム(DEIM)
- 関連する報告書
  2023 実績報告書
[学会発表] 自律分散型データ統合技術Dejimaの性能分析2024
- 著者名/発表者名
  吉田凌河、肖川、鬼塚真
- 学会等名
  第16回データ工学と情報マネジメントに関するフォーラム(DEIM)
- 関連する報告書
  2023 実績報告書
[学会発表] empty-answer問題に対する多様性を考慮した効率的な探索手法2024
- 著者名/発表者名
  池田悠人、肖川、鬼塚真
- 学会等名
  第16回データ工学と情報マネジメントに関するフォーラム(DEIM)
- 関連する報告書
  2023 実績報告書
[学会発表] Jellyfish: データ前処理のための大規模言語モデル2024
- 著者名/発表者名
  張皓辰、董于洋、肖川、小山田昌史
- 学会等名
  第16回データ工学と情報マネジメントに関するフォーラム(DEIM)
- 関連する報告書
  2023 実績報告書
[学会発表] SABM：大規模言語モデルに基づくエージェントベース実世界シミュレーション2024
- 著者名/発表者名
  呉増青、彭潤、韓勗、鄭舒元、肖川
- 学会等名
  第16回データ工学と情報マネジメントに関するフォーラム(DEIM)
- 関連する報告書
  2023 実績報告書
[学会発表] Smart Agent-Based Modeling: On the Use of Large Language Models in Computer Simulations2023
- 著者名/発表者名
  Chuan Xiao
- 学会等名
  5th joint Korea-Japan Workshop on Management of Data (KJDM)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] CAGAIN: Column Attention Generative Adversarial Imputation Networks2023
- 著者名/発表者名
  Kawagoshi Jun、Dong Yuyang、Nozawa Takuma、Xiao Chuan
- 学会等名
  34th International Conference on Database and Expert Systems Applications (DEXA)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] A Method of Image Dehazing Based on Atmospheric Veil Prediction by ResNet2023
- 著者名/発表者名
  Zhang Jie、Li Fan、Kang Mengfei、Luo Xiongbiao、Zhao JIng、Xiao Chuan、Du Haipeng、Wang Huaijun
- 学会等名
  2nd Workshop on User-Centric Narrative Summarization of Long Videos (NarSUM)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] "Guinea Pig Trials" Utilizing GPT: A Novel Smart Agent-Based Modeling Approach for Studying Firm Competition and Collusion2023
- 著者名/発表者名
  Xu Han、Zengqing Wu、Chuan Xiao
- 学会等名
  Conference on Information Systems and Technology (CIST)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] 創薬のための分子グラフ推薦システム2023
- 著者名/発表者名
  Sheng Hu, Ichigaku Takigawa, Chuan Xiao
- 学会等名
  第15回データ工学と情報マネジメントに関するフォーラム(DEIM)
- 関連する報告書
  2022 実績報告書
[学会発表] Token-Free Cross-Lingual Named Entity Recognition for Classical Chinese2023
- 著者名/発表者名
  Zhongqing Jiang, Zengqing Wu, Chuan Xiao
- 学会等名
  第15回データ工学と情報マネジメントに関するフォーラム(DEIM)
- 関連する報告書
  2022 実績報告書
[学会発表] 大域的一貫性を保証する自律分散型データ統合技術の性能分析2023
- 著者名/発表者名
  吉田凌河, 伊藤竜一, 肖川, 鬼塚真
- 学会等名
  第15回データ工学と情報マネジメントに関するフォーラム(DEIM)
- 関連する報告書
  2022 実績報告書
[学会発表] 経路を用いた高速なサブグラフ編集距離問合せ2023
- 著者名/発表者名
  堀内美聡, 佐々木勇和, 肖川, 鬼塚真
- 学会等名
  第15回データ工学と情報マネジメントに関するフォーラム(DEIM)
- 関連する報告書
  2022 実績報告書
[備考] 研究者ホームページ
- URL
  https://sites.google.com/site/chuanxiao1983/
- 関連する報告書
  2023 実績報告書

和漢書テキストデータベースに対する知的情報検索システムの研究開発

研究代表者

肖 川 大阪大学, 大学院情報科学研究科, 准教授 (10643900)

16,900千円 (直接経費: 13,000千円、間接経費: 3,900千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[国際共同研究] フォーダム大学(米国)

関連する報告書

[国際共同研究] ニューサウスウェールズ大学(オーストラリア)

関連する報告書

[国際共同研究] アントグループ/香港大学/広州大学(中国)

関連する報告書

[雑誌論文] Utilization of Information Entropy in Training and Evaluation of Students’ Abstraction Performance and Algorithm Efficiency in Programming2024

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Benchmark for Personalized Federated Learning2024

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] High-Ratio Compression for Machine-Generated Data2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] DeepJoin: Joinable Table Discovery with Pre-Trained Language Models2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] MQH: Locality Sensitive Hashing on Multi-level Quantization Errors for Point-to-Hyperplane Distances2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] An Efficient Diversity-Aware Method for the Empty-Answer Problem2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] A Token-Free Approach to Entity-Based Keyword Search in Classical Chinese2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 自律分散型データ統合技術Dejimaの性能分析2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] empty-answer問題に対する多様性を考慮した効率的な探索手法2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Jellyfish: データ前処理のための大規模言語モデル2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] SABM：大規模言語モデルに基づくエージェントベース実世界シミュレーション2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Smart Agent-Based Modeling: On the Use of Large Language Models in Computer Simulations2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] CAGAIN: Column Attention Generative Adversarial Imputation Networks2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] A Method of Image Dehazing Based on Atmospheric Veil Prediction by ResNet2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] "Guinea Pig Trials" Utilizing GPT: A Novel Smart Agent-Based Modeling Approach for Studying Firm Competition and Collusion2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 創薬のための分子グラフ推薦システム2023

肖川大阪大学, 大学院情報科学研究科, 准教授 (10643900)