研究課題/領域番号 |
23K18462
|
研究種目 |
挑戦的研究(萌芽)
|
配分区分 | 基金 |
審査区分 |
中区分60:情報科学、情報工学およびその関連分野
|
研究機関 | 京都大学 |
研究代表者 |
佐藤 高史 京都大学, 情報学研究科, 教授 (20431992)
|
研究期間 (年度) |
2023-06-30 – 2026-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
6,240千円 (直接経費: 4,800千円、間接経費: 1,440千円)
2025年度: 2,340千円 (直接経費: 1,800千円、間接経費: 540千円)
2024年度: 2,210千円 (直接経費: 1,700千円、間接経費: 510千円)
2023年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
|
キーワード | DNA記憶装置 / コールドデータ / 類似画像検索 / デオキシリボ核酸 / 超並列検索 |
研究開始時の研究の概要 |
データのアクセスには、時間的、および空間的な局所性があることが広く知られている。時間の経過につれて、多くのデータは極めて稀にしかアクセスされない「コールドデータ」となる。今後も指数的に増加するであろうデータを保存し活用するために、デオキシリボ核酸(DNA)を記録媒体とする高密度、大容量のDNA記憶装置を用いることが検討されている。これらデータの有効活用を図るため、本研究では、DNAを用いて実現する超大規模な記憶装置に、記憶以上の価値を与えることを目的とする。具体的には、検索や暗号化に代表される高度な情報処理機能を、DNAを記憶媒体として実現することを目指す。
|
研究実績の概要 |
デオキシリボ核酸(DNA)は、記録密度や長期保存性の観点で、記憶媒体としての優れた特徴を備えている。そのため、アクセス頻度が低いがデータ量が多く長期保存が求められる、いわゆる「コールドデータ」を保存する媒体としての活用に向けて、その信頼性や利便性の向上が図られている。DNA記憶装置を活用するうえでは、単純な記憶媒体として用いるだけでなく、それが将来的に保持するであろう極めて巨大なデータを既存媒体上に展開することなく、DNAのままで高機能な演算ができることが望ましい。 ハードディスクや磁気テープと比較して、DNAの書き込み(合成)やその整列を伴う読み出し(シークエンシング)は誤り率が高いことから、データの読み書きの信頼性を高める研究が盛んに行われている。本研究では、DNA記憶装置を実用的に用いる上で信頼性向上の次のステップとして求められる、DNAの持つ高い並列性を活かして検索等の情報処理機能の実現を目指している。 今年度はまず、DNA記憶装置の原理や、そこで用いられる様々なアルゴリズムについて調査を行った。調査の結果、DNA記憶装置を用いる検索機能が応用の広さと実現性の両面で有望であり、特に、DNA記憶装置内に蓄えられている多数の画像に対し、検索クエリ画像に対応するDNA単鎖を混合することで、クエリと類似する画像をハイブリダイゼーションを通じて取得する高並列な画像検索機能の実現方法について検討を行った。その結果、DNAへのエンコーディング処理が、全体の中で大きな計算負荷を占めていることをシミュレータにより確認した。また、エンコーダの負荷を軽減する手法を考案し、そのプロトタイプソフトウェアを作成した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究においてDNA記憶装置に与える重要な機能の一つとして、検索機能がある。検索機能、特に大規模な画像データベースに対する効率の良い検索は、多くの応用を持つ重要な処理である。今年度は、文献調査に基づいて類似画像検索に目的を絞り、多数の画像の中から検索クエリ画像と似た画像を選び、取り出す操作を実現するための、塩基をシンボルとする符号化(エンコーディング)方法について検討を行った。また、DNAを用いて検索した類似画像が人間の目から見て似ているか否かを判定する、類似画像の適切性を評価する手法が提案されていなかった。このため、類似画像の検索能力を、あらかじめラベルが与えられているクラス分類課題を通じて評価する方法を合わせて提案した。提案した解決策は、DNA間のハイブリダイゼーションを計算機上で模擬するシミュレーションを通じて評価した。 これらのDNA記憶装置に用いられている技術調査や課題の洗い出し、および、課題に対する解決策の提案と評価は、当初の計画に概ね沿ったものとなっている。
|
今後の研究の推進方策 |
今年度実施した調査で明らかとなった最大の課題は、DNAを用いて類似画像を検索する際に、従来研究では二種類のエンコーダを用いていることである。すなわち、画像それ自身の特徴を表す画像特徴量の抽出を行うエンコーダと、検索クエリとして実現するために抽出した画像特徴量を単鎖DNAの配列に変換するDNA配列のエンコーダである。前者のエンコーダは、類似画像が似た特徴量を出力し異なる画像は異なる特徴量を出力すること、後者のエンコーダは、似た特徴量がハイブリダイゼーションし易く異なる特徴量はハイブリダイゼーションが起こりにくいようシンボルを割り当てること、が目的となっている。 シミュレータも併用してこの手続きを確認する過程で、従来研究においては、これらのエンコーダはいずれも計算量が大きく、計算時間の大部分を占めていることが判明している。今年度の研究により、これらのエンコーダを、より高速に実行でき、またDNAでの実現に適するものに置き換える着想を得て、プロトタイプを作成している。まずは、プロトタイプの評価(エンコーダの実行時間や類似画像検索としての精度等)をより詳細に行い、DNAを用いる高精度かつ高速な画像検索を目指す予定である。
|