Intelligent Information Retrieval Systems for Text Databases of Japanese and Chinese Classics
Project/Area Number |
23K25157
|
Project/Area Number (Other) |
22H03903 (2022-2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2022-2023) |
Section | 一般 |
Review Section |
Basic Section 90020:Library and information science, humanistic and social informatics-related
|
Research Institution | Osaka University |
Principal Investigator |
肖 川 大阪大学, 大学院情報科学研究科, 准教授 (10643900)
|
Co-Investigator(Kenkyū-buntansha) |
佐々木 勇和 大阪大学, 大学院情報科学研究科, 助教 (40745147)
石川 佳治 名古屋大学, 情報学研究科, 教授 (80263440)
程 永超 東北大学, 東北アジア研究センター, 准教授 (80823103)
|
Project Period (FY) |
2022-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥16,900,000 (Direct Cost: ¥13,000,000、Indirect Cost: ¥3,900,000)
Fiscal Year 2025: ¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2024: ¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2023: ¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2022: ¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
|
Keywords | 情報検索 / 和漢書 / データベース / 知識ベース |
Outline of Research at the Start |
本研究では、情報科学と歴史・文化学の融合を目指し、テキスト化した和漢書データを対象として、和漢書テキストデータベースに適用できる知的情報検索手法とシステムの開発に関する研究を行う。このような動機のもとで、漢文固有表現の抽出と統合、和漢書テキストデータベースと密結合した知識ベースの構築、和漢書テキストに対する固有名詞の共参照解析、および情報検索フレームワークの構築・システムの実装を進める。本研究の成果によって、東アジアの歴史・文化研究を積極的に支援するのみならず、人文・社会系の他の研究分野に応用することも期待される。
|
Outline of Annual Research Achievements |
本年度は、和漢書テキストに対する漢文固有表現の抽出と統合を行った。 既存の和漢書テキストデータベースは、情報検索機能には十分対応できていない。主な原因は、漢文の文法のため、和漢書テキストの多くには固有名詞の別称や省略が存在し、検索のキーワードと完全に一致する結果しか検出できない。固有名詞の別称を含む結果を検出するため、事前に固有名詞とその別称を和漢書テキストから抽出することが求められる。ただ、現代中国語と異なり、漢文のテキストには句読点がないことが多いため、句読点のないデータを扱うことは困難な課題である。 以上の問題に対処するため、トークンフリーの事前学習済みモデルを活用した。これまでの最も広く使用されている事前学習済み言語モデルは、単語や部分単語単位に対応するトークンのシーケンスに作用する。これに対して、トークンフリーのモデルは、生のテキスト(バイトまたは文字)に直接作用し、多くの利点を持っている。例えば、任意の言語のテキストを処理することができ、ノイズに対してより堅牢であり、複雑でエラーが発生しやすいテキスト前処理パイプラインを取り除くことができる。それらの利点を考えて、ByT5というトークンフリーのモデルに基づく漢文の事前学習済み言語モデルを開発し、漢文の固有名詞認識のために学習済みモデルを微調整(fine-tune)した。微調整されたモデルは、既存の手法を大幅に上回る性能を発揮し、いわゆるグラウンドトゥルース(C-CLUE)のエラーさえも訂正できる。初期の結果はDEIM 2023学会で発表された。詳細な研究成果はEMNLP 2023に提出される予定である。 さらに、データ統合のため、意味的に等価なコンテンツの識別手法を開発し、研究成果はVLDB 2023学会で発表される予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究については順調に推移している。漢文固有表現の抽出と統合の技術の開発ができており、また、漢文テキストデータとの統合に向けた研究が進められており、データベース分野の主要国際会議(VLDB)に論文が採録されるという顕著な実績も得られている。
|
Strategy for Future Research Activity |
今後の推進方策としては、当初計画で扱う予定であった知識ベース構築と固有名詞の共参照解析の優先順位を入れ替える。これは、トークンフリーのモデルに基づく漢文の事前学習済み言語モデルで固有名詞の共参照解析が処理できると判断したためであり、和漢書テキストデータベースに対する情報検索システムにおいて、優先的に取り組むべきである。 「和漢書テキストに対する固有名詞の共参照解析」に関しては、テキストマイニング技術と自然言語処理技術の融合により、和漢書テキストにおける共参照解析のパターンを発見し、効率的なテキスト処理機能を実現する予定である。「和漢書テキストデータベースと密結合した知識ベースの構築」に関しては、多言語化の知識ベースの構築技術に焦点を当てて、サーベイを行い、和漢書テキストの性質を考慮した共参照解析手法を開発する。また、各サブテーマの内容を踏まえ、それらを統合可能とするシステムフレームワークの設計を行い、年度後半から、システムの開発を実施する。
|
Report
(1 results)
Research Products
(5 results)