2023 Fiscal Year Annual Research Report
Intelligent Information Retrieval Systems for Text Databases of Japanese and Chinese Classics
Project/Area Number |
22H03903
|
Allocation Type | Single-year Grants |
Research Institution | Osaka University |
Principal Investigator |
肖 川 大阪大学, 大学院情報科学研究科, 准教授 (10643900)
|
Co-Investigator(Kenkyū-buntansha) |
佐々木 勇和 大阪大学, 大学院情報科学研究科, 助教 (40745147)
石川 佳治 名古屋大学, 情報学研究科, 教授 (80263440)
程 永超 東北大学, 東北アジア研究センター, 准教授 (80823103)
|
Project Period (FY) |
2022-04-01 – 2026-03-31
|
Keywords | 情報検索 / 和漢書 / 知識ベース / データベース |
Outline of Annual Research Achievements |
本年度は、和漢書テキストに対する漢文固有表現の抽出、共参照解析、知識ベースの構築を行った。具体的には、トークンフリーの事前学習済みモデル(ByT5)を活用した。これまでの最も広く使用されている事前学習済み言語モデルは、単語や部分単語単位に対応するトークンのシーケンスに作用する。これに対して、トークンフリーのモデルは、生のテキスト(バイトまたは文字)に直接作用し、多くの利点を持っている。そのため、ByT5に基づく漢文の事前学習済み言語モデルを開発し、漢文の固有名詞認識のために学習済みモデルをチューニングした。チューニングされたモデルは、既存の手法を大幅に上回る性能を発揮し、いわゆるグラウンドトゥルース(C-CLUE)のエラーさえも訂正できる。 また、和漢書の情報検索においては、知識ベースを活用することで、固有名詞間の関係が明確になり、検索結果の品質が向上する。そのため、和漢書テキストデータベースと密結合した知識ベースの構築を行った。特に、人物間の関係と人物・官職間の関係についての知識ベースを構築した。 研究成果はDEIM 2024学会で発表された。詳細な研究成果はACL ARRに提出される予定である。 さらに、データベース間での統合を促進するために、異なるデータを統合できるテーブル埋め込み手法を開発した。膨大なデータに対応するために、大規模な高次元データ検索に焦点を当て、効率的な高次元データ索引技術および類似性に基づく問合せ処理方法を活用した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の計画通り、トークンフリーの事前学習済みモデルを用いた。特に、任意の言語のテキストを処理することができ、ノイズに対してより堅牢であり、複雑でエラーが発生しやすいテキスト前処理パイプラインを取り除くことができた。
|
Strategy for Future Research Activity |
漢文固有表現の抽出と共参照解析のみならず、様々な漢文タスクを解決するため、一般化能力を持つモデルの開発に取り組む。特に、Llama 3などの低価格のGPUでローカルに実行可能な大規模言語モデルを用いて、組み込みの漢文ドメイン知識を提供したモデルをカスタマイズする。
|
Research Products
(18 results)