研究課題/領域番号 |
23K25157
|
補助金の研究課題番号 |
22H03903 (2022-2023)
|
研究種目 |
基盤研究(B)
|
配分区分 | 基金 (2024) 補助金 (2022-2023) |
応募区分 | 一般 |
審査区分 |
小区分90020:図書館情報学および人文社会情報学関連
|
研究機関 | 大阪大学 |
研究代表者 |
肖 川 大阪大学, 大学院情報科学研究科, 准教授 (10643900)
|
研究分担者 |
佐々木 勇和 大阪大学, 大学院情報科学研究科, 助教 (40745147)
石川 佳治 名古屋大学, 情報学研究科, 教授 (80263440)
程 永超 東北大学, 東北アジア研究センター, 准教授 (80823103)
|
研究期間 (年度) |
2022-04-01 – 2026-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
16,900千円 (直接経費: 13,000千円、間接経費: 3,900千円)
2025年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2024年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2023年度: 4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)
2022年度: 4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)
|
キーワード | 情報検索 / 和漢書 / データベース / 知識ベース |
研究開始時の研究の概要 |
本研究では、情報科学と歴史・文化学の融合を目指し、テキスト化した和漢書データを対象として、和漢書テキストデータベースに適用できる知的情報検索手法とシステムの開発に関する研究を行う。このような動機のもとで、漢文固有表現の抽出と統合、和漢書テキストデータベースと密結合した知識ベースの構築、和漢書テキストに対する固有名詞の共参照解析、および情報検索フレームワークの構築・システムの実装を進める。本研究の成果によって、東アジアの歴史・文化研究を積極的に支援するのみならず、人文・社会系の他の研究分野に応用することも期待される。
|
研究実績の概要 |
本年度は、和漢書テキストに対する漢文固有表現の抽出、共参照解析、知識ベースの構築を行った。具体的には、トークンフリーの事前学習済みモデル(ByT5)を活用した。これまでの最も広く使用されている事前学習済み言語モデルは、単語や部分単語単位に対応するトークンのシーケンスに作用する。これに対して、トークンフリーのモデルは、生のテキスト(バイトまたは文字)に直接作用し、多くの利点を持っている。そのため、ByT5に基づく漢文の事前学習済み言語モデルを開発し、漢文の固有名詞認識のために学習済みモデルをチューニングした。チューニングされたモデルは、既存の手法を大幅に上回る性能を発揮し、いわゆるグラウンドトゥルース(C-CLUE)のエラーさえも訂正できる。 また、和漢書の情報検索においては、知識ベースを活用することで、固有名詞間の関係が明確になり、検索結果の品質が向上する。そのため、和漢書テキストデータベースと密結合した知識ベースの構築を行った。特に、人物間の関係と人物・官職間の関係についての知識ベースを構築した。 研究成果はDEIM 2024学会で発表された。詳細な研究成果はACL ARRに提出される予定である。 さらに、データベース間での統合を促進するために、異なるデータを統合できるテーブル埋め込み手法を開発した。膨大なデータに対応するために、大規模な高次元データ検索に焦点を当て、効率的な高次元データ索引技術および類似性に基づく問合せ処理方法を活用した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初の計画通り、トークンフリーの事前学習済みモデルを用いた。特に、任意の言語のテキストを処理することができ、ノイズに対してより堅牢であり、複雑でエラーが発生しやすいテキスト前処理パイプラインを取り除くことができた。
|
今後の研究の推進方策 |
漢文固有表現の抽出と共参照解析のみならず、様々な漢文タスクを解決するため、一般化能力を持つモデルの開発に取り組む。特に、Llama 3などの低価格のGPUでローカルに実行可能な大規模言語モデルを用いて、組み込みの漢文ドメイン知識を提供したモデルをカスタマイズする。
|