和漢書テキストデータベースに対する知的情報検索システムの研究開発

研究課題

研究課題/領域番号	22H03903
研究種目	基盤研究(B)
配分区分	補助金
応募区分	一般
審査区分	小区分90020:図書館情報学および人文社会情報学関連
研究機関	大阪大学
研究代表者	肖川大阪大学, 大学院情報科学研究科, 准教授 (10643900)
研究分担者	佐々木勇和大阪大学, 大学院情報科学研究科, 助教 (40745147) 石川佳治名古屋大学, 情報学研究科, 教授 (80263440) 程永超東北大学, 東北アジア研究センター, 准教授 (80823103)
研究期間 (年度)	2022-04-01 – 2026-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	16,900千円 (直接経費: 13,000千円、間接経費: 3,900千円) 2023年度: 4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円) 2022年度: 4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)
キーワード	情報検索 / 和漢書 / データベース / 知識ベース
研究開始時の研究の概要	本研究では、情報科学と歴史・文化学の融合を目指し、テキスト化した和漢書データを対象として、和漢書テキストデータベースに適用できる知的情報検索手法とシステムの開発に関する研究を行う。このような動機のもとで、漢文固有表現の抽出と統合、和漢書テキストデータベースと密結合した知識ベースの構築、和漢書テキストに対する固有名詞の共参照解析、および情報検索フレームワークの構築・システムの実装を進める。本研究の成果によって、東アジアの歴史・文化研究を積極的に支援するのみならず、人文・社会系の他の研究分野に応用することも期待される。
研究実績の概要	本年度は、和漢書テキストに対する漢文固有表現の抽出と統合を行った。既存の和漢書テキストデータベースは、情報検索機能には十分対応できていない。主な原因は、漢文の文法のため、和漢書テキストの多くには固有名詞の別称や省略が存在し、検索のキーワードと完全に一致する結果しか検出できない。固有名詞の別称を含む結果を検出するため、事前に固有名詞とその別称を和漢書テキストから抽出することが求められる。ただ、現代中国語と異なり、漢文のテキストには句読点がないことが多いため、句読点のないデータを扱うことは困難な課題である。以上の問題に対処するため、トークンフリーの事前学習済みモデルを活用した。これまでの最も広く使用されている事前学習済み言語モデルは、単語や部分単語単位に対応するトークンのシーケンスに作用する。これに対して、トークンフリーのモデルは、生のテキスト（バイトまたは文字）に直接作用し、多くの利点を持っている。例えば、任意の言語のテキストを処理することができ、ノイズに対してより堅牢であり、複雑でエラーが発生しやすいテキスト前処理パイプラインを取り除くことができる。それらの利点を考えて、ByT5というトークンフリーのモデルに基づく漢文の事前学習済み言語モデルを開発し、漢文の固有名詞認識のために学習済みモデルを微調整（fine-tune）した。微調整されたモデルは、既存の手法を大幅に上回る性能を発揮し、いわゆるグラウンドトゥルース（C-CLUE）のエラーさえも訂正できる。初期の結果はDEIM 2023学会で発表された。詳細な研究成果はEMNLP 2023に提出される予定である。さらに、データ統合のため、意味的に等価なコンテンツの識別手法を開発し、研究成果はVLDB 2023学会で発表される予定である。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由研究については順調に推移している。漢文固有表現の抽出と統合の技術の開発ができており、また、漢文テキストデータとの統合に向けた研究が進められており、データベース分野の主要国際会議（VLDB）に論文が採録されるという顕著な実績も得られている。
今後の研究の推進方策	今後の推進方策としては、当初計画で扱う予定であった知識ベース構築と固有名詞の共参照解析の優先順位を入れ替える。これは、トークンフリーのモデルに基づく漢文の事前学習済み言語モデルで固有名詞の共参照解析が処理できると判断したためであり、和漢書テキストデータベースに対する情報検索システムにおいて、優先的に取り組むべきである。「和漢書テキストに対する固有名詞の共参照解析」に関しては、テキストマイニング技術と自然言語処理技術の融合により、和漢書テキストにおける共参照解析のパターンを発見し、効率的なテキスト処理機能を実現する予定である。「和漢書テキストデータベースと密結合した知識ベースの構築」に関しては、多言語化の知識ベースの構築技術に焦点を当てて、サーベイを行い、和漢書テキストの性質を考慮した共参照解析手法を開発する。また、各サブテーマの内容を踏まえ、それらを統合可能とするシステムフレームワークの設計を行い、年度後半から、システムの開発を実施する。

報告書

(1件)

2022 実績報告書

研究成果

(5件)

すべて 2023 2022

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (4件)

[雑誌論文] MQH: Locality Sensitive Hashing on Multi-level Quantization Errors for Point-to-Hyperplane Distances2022
- 著者名/発表者名
  Kejing Lu, Yoshiharu Ishikawa, Chuan Xiao
- 雑誌名
  
  Proceedings of the VLDB Endowment
  
  巻: 16 号: 4 ページ: 864-876
- DOI
  10.14778/3574245.3574269
- 関連する報告書
  2022 実績報告書
- 査読あり
[学会発表] 創薬のための分子グラフ推薦システム2023
- 著者名/発表者名
  Sheng Hu, Ichigaku Takigawa, Chuan Xiao
- 学会等名
  第15回データ工学と情報マネジメントに関するフォーラム(DEIM)
- 関連する報告書
  2022 実績報告書
[学会発表] Token-Free Cross-Lingual Named Entity Recognition for Classical Chinese2023
- 著者名/発表者名
  Zhongqing Jiang, Zengqing Wu, Chuan Xiao
- 学会等名
  第15回データ工学と情報マネジメントに関するフォーラム(DEIM)
- 関連する報告書
  2022 実績報告書
[学会発表] 大域的一貫性を保証する自律分散型データ統合技術の性能分析2023
- 著者名/発表者名
  吉田凌河, 伊藤竜一, 肖川, 鬼塚真
- 学会等名
  第15回データ工学と情報マネジメントに関するフォーラム(DEIM)
- 関連する報告書
  2022 実績報告書
[学会発表] 経路を用いた高速なサブグラフ編集距離問合せ2023
- 著者名/発表者名
  堀内美聡, 佐々木勇和, 肖川, 鬼塚真
- 学会等名
  第15回データ工学と情報マネジメントに関するフォーラム(DEIM)
- 関連する報告書
  2022 実績報告書

和漢書テキストデータベースに対する知的情報検索システムの研究開発

研究代表者

肖 川 大阪大学, 大学院情報科学研究科, 准教授 (10643900)

16,900千円 (直接経費: 13,000千円、間接経費: 3,900千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] MQH: Locality Sensitive Hashing on Multi-level Quantization Errors for Point-to-Hyperplane Distances2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] 創薬のための分子グラフ推薦システム2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Token-Free Cross-Lingual Named Entity Recognition for Classical Chinese2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 大域的一貫性を保証する自律分散型データ統合技術の性能分析2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 経路を用いた高速なサブグラフ編集距離問合せ2023

著者名/発表者名

学会等名

関連する報告書

肖川大阪大学, 大学院情報科学研究科, 准教授 (10643900)