研究課題/領域番号 |
23K17456
|
研究種目 |
挑戦的研究(開拓)
|
配分区分 | 基金 |
審査区分 |
中区分60:情報科学、情報工学およびその関連分野
|
研究機関 | 大阪大学 |
研究代表者 |
鬼塚 真 大阪大学, 大学院情報科学研究科, 教授 (60726165)
|
研究分担者 |
石原 靖哲 南山大学, 理工学部, 教授 (00263434)
加藤 弘之 国立情報学研究所, アーキテクチャ科学研究系, 助教 (10321580)
肖 川 大阪大学, 大学院情報科学研究科, 准教授 (10643900)
|
研究期間 (年度) |
2023-06-30 – 2028-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
26,000千円 (直接経費: 20,000千円、間接経費: 6,000千円)
2027年度: 4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2026年度: 4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2025年度: 4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)
2024年度: 4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2023年度: 8,710千円 (直接経費: 6,700千円、間接経費: 2,010千円)
|
キーワード | データベース統合 / 双方向変換 / 一貫性保証 |
研究開始時の研究の概要 |
本研究は、より多くのデータベースを一貫性を維持した形で統合・活用し、社会的要請であるデータ駆動型の社会を実現するため、以下の技術課題に取り組む。課題A)異なるデータベースであっても同じ意味空間にデータを射影し、メトリック学習技術を用いることでテーブル統合の可否を高次元データ間の類似度で捉えることを可能とし、高精度に統合可能なテーブルを発見する。課題B)状態変化に基づく双方向変換を「仕様」と捉え、この仕様から実用的なビュー更新操作を導出する。課題C)多様なデータタイプを扱えるように競合の解決機構をユーザに提供する。
|
研究実績の概要 |
[課題A:統合可能なデータベースの発見] データベース間での統合を促進するために、異なるデータを統合できるテーブル埋め込み手法を開発した。具体的には、事前学習モデルとメトリック学習技術を適用し、テーブルの統合可否を高次元データの類似性によって判断する手法を開発した。さらに、膨大なデータに対応するために、大規模な高次元データ検索に焦点を当て、効率的な高次元データ索引技術および類似性に基づく問合せ処理方法を活用した。 [課題B:双方向変換の高速化] 双方向変換の高速化を達成するために、これまでの成果である「状態変化に基づく双方向変換」を仕様としてとらえ、そこからビューに対するSQLの更新文を基底表に対するSQLの更新文に変換することが目標である。今年度は、SQLの更新文を挿入と削除を組み合わせたDelta-Datalogに変換する手法を開発した。特に、SQLのUPDATE文を挿入と削除で組み合わせた場合のsemantic gapを埋めるために追加される制約を定義した。 [課題C:ネットワーク分断時の一貫性保証] ネットワーク分断後の同期によって競合が起きる代表的なデータタイプであるキューを主たる検討対象として採用し、その不完全情報表現を検討した。その結果、参加するピア数に対して線形サイズの表現が可能であるとの見通しを得た。また、情報統合システムの実例として、地図情報と不審者情報を統合して経路推薦を行うシステムの提案と開発を行った。加えて、データベース統合システムDejimaにおける大域的一貫性に関する性能評価を行い、書き込み・読み込み負荷の変化に対して適応的にロック方法を変更する技術の有効性を検証した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
[課題A:統合可能なデータベースの発見] 当初の計画通り、表現学習技術と事前学習モデルを用いて、異なるデータベースのデータを意味のある高次元空間に射影することによって行ったため。 [課題B:双方向変換の高速化] 当初の計画通り、「状態変化に基づく双方向変換」を仕様とした更新操作の導出するための手順の一つであるSQLの更新文(DELETE, INSERT, UPDATE)からDelta-Datalogへの正しい変換技術を開発したため。 [課題C:ネットワーク分断時の一貫性保証] 検討の結果得られたキューの不完全情報表現は、その正しさの証明が完了していないものの、予想を上回るコンパクトさ(参加するピア数に対して線形サイズ)であったため。加えて、Dejimaにおける大域的一貫性に関する性能評価を完了した。
|
今後の研究の推進方策 |
[課題A:統合可能なデータベースの発見] データベース間での統合のみならず、様々なデータ前処理タスクを解決するため、一般化能力を持つモデルの開発に取り組む。特に、Llama 3 などの低価格のGPUでローカルに実行可能な大規模言語モデルを用いて、組み込みのドメイン知識とオプションの知識指定を提供したモデルをカスタマイズする。 [課題B:双方向変換の高速化] 「状態変化に基づく双方向変換」に定義されている、更新されたビュー並びに更新された基底表が満たすべき制約を、Delta-Datalogに変換する手法の開発に取り組む。 [課題C:ネットワーク分断時の一貫性保証] 検討の結果得られたキューの不完全情報表現が正しい表現になっていることの証明を行ったのち、不完全情報を確定させるための操作について検討を始める。並行して、他のデータタイプについても検討を進める。また、実例として開発したシステムへの適用について検討する。
|