研究課題/領域番号 |
21K11901
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分60080:データベース関連
|
研究機関 | 電気通信大学 |
研究代表者 |
古賀 久志 電気通信大学, 大学院情報理工学研究科, 准教授 (40361836)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
3,510千円 (直接経費: 2,700千円、間接経費: 810千円)
2024年度: 520千円 (直接経費: 400千円、間接経費: 120千円)
2023年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2022年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2021年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
|
キーワード | 時系列データ / データストリーム / 類似検索 / ハッシュ / コンセプトドリフト / 集合間類似検索 / スライディングウィンドウ / スケッチによる要約 / 転置インデクス / 株価予測 / スケッチ / Min Hash / ストリームデータ / 近似解法 / データのスケッチ |
研究開始時の研究の概要 |
類似検索は、ウェブやSNSに基づく情報推薦の基盤技術である。例えば、ウェブの閲覧履歴が似たユーザを類似検索で発見し、類似ユーザが読んだウェブニュースをお薦めする推薦システムが考えられる。ここで、直近の履歴はスライディングウィンドウ内に保持された時間と共に変化するオブジェクト集合となり、情報推薦は動的に変化する集合を対象とした類似検索に帰着できる。
本研究では、システムの大規模化に対応するため、近似解法により類似検索を高速化する。要素が不変な通常の集合に対してはスケッチと呼ばれる「集合の要約表現」を用いた類似検索の高速化手法が存在し、本研究ではスケッチを動的に変化する集合を取り扱えるよう拡張する。
|
研究実績の概要 |
今年度はスライディングウィンドウモデルのストリームデータに対して、到着データのヒストグラムをワンパスで高精度に構築する手法を開発した。既存手法では同一周期で0リセットされるカウンタを複数個利用する。しかしこのやり方では、各時刻で適切な値を持ったカウンタが実質1つしかなく確率的なゆらぎにロバストでない。我々はカウンタの周期を複数種類にすることで、確率的なゆらぎにロバストな手法を考案した。 また、ストリームデータを対象に、そのコンテンツが変化したことを高速に検出するアルゴリズムを実現した。本アルゴリズムは、ストリームデータに対する機械学習ベースのパターン認識において、データストリームの最新データが学習データから変化したことを検出したいという応用を想定している。コンテンツ変化を検出するには、現データが過去データから変わったことを認識すればよい。我々はデータ間類似度を近似的に高速算出することで変化検出にかかる時間を1/5に短縮した。 さらに、類似時系列を探索する研究テーマに関して外部発表を2件行った。1つ目は類似時系列をハッシュテーブル上で高速検索する手法である。本手法では部分時系列をハッシュテーブルに登録しておき、共通の部分時系列を持つ類似時系列候補を高速発見する。とくに部分時系列が時系列内でどこに存在するかという情報を活用して、類似時系列の候補を高精度に絞り込んでいる。2つ目は圧縮ベースパターン認識を用いて類似時系列を探索する手法である。データ圧縮アルゴリズムのパラメータを検証データを学習して決定することで、時系列データの分類精度を向上できることを示した。さらに、パラメータを学習しないと分類精度が低下するメカニズムも明らかにした。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
昨年度に引き続き、応用領域については研究成果が順調に増えている。一方で、メインテーマである動的に変化する集合に対するスケッチ作成アルゴリズムに関しては、難度が高いことが判明したため開発を保留している状況である。現状はアルゴリズム開発の準備として、スケッチ生成のための基礎データとなるヒストグラムを高精度でオンライン構築する手法を実現することを目指している。このヒストグラムのオンライン構築に関しては令和6年度中に研究成果を発表できる見込みである。しかし、作成したヒストグラムをスケッチ生成に組み込む方法は自明でない。この結果、現状ではストリームデータに対してワンパスでスケッチを構成できておらず、高速に動作するものの空間計算量が大きいアルゴリズムしか実現できていない。
|
今後の研究の推進方策 |
ストリームデータをワンパスで処理することは重要である。しかしながら現況を省みると、世界の最先端レベルでもストリームデータをワンパスで処理する制約条件下で高精度なスケッチを作成することが全くできていない。つまり、本研究課題の研究テーマは非常に難度が高い。このような状況なので、本研究課題を今後推進するには、(1) ストリームデータを複数回スキャンする条件下で高速なスケッチ生成を実現するというテーマと(2)ワンパスでストリームデータに対して高精度な近似ヒストグラムを生成するという2つのテーマに分けて研究を進めるのが現実的と考えている。令和6年度は、上記2つのテーマの両者で研究成果を外部発表することを目指す。
|