Intelligent Information Retrieval Systems for Text Databases of Japanese and Chinese Classics
Project/Area Number |
23K25157
|
Project/Area Number (Other) |
22H03903 (2022-2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2022-2023) |
Section | 一般 |
Review Section |
Basic Section 90020:Library and information science, humanistic and social informatics-related
|
Research Institution | Osaka University |
Principal Investigator |
肖 川 大阪大学, 大学院情報科学研究科, 准教授 (10643900)
|
Co-Investigator(Kenkyū-buntansha) |
佐々木 勇和 大阪大学, 大学院情報科学研究科, 助教 (40745147)
石川 佳治 名古屋大学, 情報学研究科, 教授 (80263440)
程 永超 東北大学, 東北アジア研究センター, 准教授 (80823103)
|
Project Period (FY) |
2022-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥16,900,000 (Direct Cost: ¥13,000,000、Indirect Cost: ¥3,900,000)
Fiscal Year 2025: ¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2024: ¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2023: ¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2022: ¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
|
Keywords | 情報検索 / 和漢書 / データベース / 知識ベース |
Outline of Research at the Start |
本研究では、情報科学と歴史・文化学の融合を目指し、テキスト化した和漢書データを対象として、和漢書テキストデータベースに適用できる知的情報検索手法とシステムの開発に関する研究を行う。このような動機のもとで、漢文固有表現の抽出と統合、和漢書テキストデータベースと密結合した知識ベースの構築、和漢書テキストに対する固有名詞の共参照解析、および情報検索フレームワークの構築・システムの実装を進める。本研究の成果によって、東アジアの歴史・文化研究を積極的に支援するのみならず、人文・社会系の他の研究分野に応用することも期待される。
|
Outline of Annual Research Achievements |
本年度は、和漢書テキストに対する漢文固有表現の抽出、共参照解析、知識ベースの構築を行った。具体的には、トークンフリーの事前学習済みモデル(ByT5)を活用した。これまでの最も広く使用されている事前学習済み言語モデルは、単語や部分単語単位に対応するトークンのシーケンスに作用する。これに対して、トークンフリーのモデルは、生のテキスト(バイトまたは文字)に直接作用し、多くの利点を持っている。そのため、ByT5に基づく漢文の事前学習済み言語モデルを開発し、漢文の固有名詞認識のために学習済みモデルをチューニングした。チューニングされたモデルは、既存の手法を大幅に上回る性能を発揮し、いわゆるグラウンドトゥルース(C-CLUE)のエラーさえも訂正できる。 また、和漢書の情報検索においては、知識ベースを活用することで、固有名詞間の関係が明確になり、検索結果の品質が向上する。そのため、和漢書テキストデータベースと密結合した知識ベースの構築を行った。特に、人物間の関係と人物・官職間の関係についての知識ベースを構築した。 研究成果はDEIM 2024学会で発表された。詳細な研究成果はACL ARRに提出される予定である。 さらに、データベース間での統合を促進するために、異なるデータを統合できるテーブル埋め込み手法を開発した。膨大なデータに対応するために、大規模な高次元データ検索に焦点を当て、効率的な高次元データ索引技術および類似性に基づく問合せ処理方法を活用した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の計画通り、トークンフリーの事前学習済みモデルを用いた。特に、任意の言語のテキストを処理することができ、ノイズに対してより堅牢であり、複雑でエラーが発生しやすいテキスト前処理パイプラインを取り除くことができた。
|
Strategy for Future Research Activity |
漢文固有表現の抽出と共参照解析のみならず、様々な漢文タスクを解決するため、一般化能力を持つモデルの開発に取り組む。特に、Llama 3などの低価格のGPUでローカルに実行可能な大規模言語モデルを用いて、組み込みの漢文ドメイン知識を提供したモデルをカスタマイズする。
|
Report
(2 results)
Research Products
(23 results)