研究課題/領域番号 |
24500109
|
研究機関 | 電気通信大学 |
研究代表者 |
大森 匡 電気通信大学, 大学院情報システム学研究科, 教授 (30233274)
|
キーワード | 大規模データ処理 / 結合演算 / 類似結合 / map/reduce |
研究概要 |
平成25年度の実績は次の通りである: 1.平成24年度に提案した大規模データ集合から多対多関係を求める結合演算のmap/reduce対応アルゴリズムHybrid Skew Join with Bucket Regrouping (HSG+BR) について,現有のHadoopクラスタ上での実行プログラムの改修を行い,負荷分散の変化に応じて提案方式によって安定した動作を得られるようになった. 2.大規模データからの情報空間の生成演算として類似結合演算を対象にして,その実行方式として,prefix-filtering法と呼ばれる手法が多対多関係を求める等結合に変換できることから,HSJ+BRを利用したprefix-filteringの実行方法を理論的に検討した.一方で,類似結合の計算アルゴリズム自体に多くの異なる手法が現在提案されており,データから有効な情報空間を出すための類似度閾値などのパラメタによって特性が非常に異なる.そのため,どのパラメタ条件下でどのアルゴリズムを中心にHSJ+BRで扱うかが問題になった.年度後半からは,この問題について簡単な試験実装と検討を行った.(主な実装は年度末から次年度前半の予定).この他,補助的な事例として,試験データとして使える可能性のある空間情報と意味タグのついたコンテンツデータの収集と当該データ固有の情報変換・検索機能を実現した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
本研究では初年度(平成24年度)に,大量データ上の多対多関係を求める一般的な等結合演算について,そのmap/reduce向け負荷分散実行アルゴリズムHSJ+BRを考案し,2年目(平成25年度)の前半はその処理プログラムのコード改修を行った.本研究では,大量データから有用な多対多関係を求める演算として類似結合を中心に考え,HSJ+BRに基づいてmap/reduce上で効率よく実行したい.しかし,類似結合の実行アルゴリズム自体が情報の有用性に応じたパラメタ依存度の高いもので,多くの異なる手法がある.そのため,当該年度の後半は,類似結合演算の複数の既存計算法のうちいくつかの簡易的実装とHSJ+BRとの対応関係を理論的に検討することになった.この点でやや遅れている.
|
今後の研究の推進方策 |
類似結合演算を行うアルゴリズムは数多いが,演算のパラメタと対象データ分布,適切な類似度関数,によって非常に振る舞いに性能差がある.平成26年度は,類似判定の閾値が高い場合に優れているとされるprefix-filtering法と,ノード間通信コストにつながるデータコピーをできるだけ行わなずに低い類似判定閾値でも計算できる技法(たとえば,V-SMART-JOIN法など)等を候補として,HSJ+BRのアイデアに対応したmap/reduce向け技法を考案する.情報空間の一貫性更新モデルについても,対象データの要約情報を維持・更新するモデルを検討しており,上記と併せて試行する予定.
|
次年度の研究費の使用計画 |
平成25年度は当初計画案では初年度のmap/reduceクラスタのノード増設と補助学生による別途開発用クラスタの新設を予定していたが,当年度実績で記述したように,初年度成果であるHSJ+BR法の実行コードの改修・安定動作化と,対象とする類似結合の実行アルゴリズムの検討,一貫性維持モデルの考案,など理論面での作業を優先して行った.実装においては,map/reduceクラスタはその性質上,仕様同一のノードで4台程度を1組として使う必要がある.そのため,当初計画案を変更して,実装評価のためのクラスタ新設や増設を平成26年度初頭に行うことにした.これが次年度へ使用予定額が繰り越した主な理由である. 補助学生用のmap/reduceクラスタの新設および,研究代表者が方式開発用に用いているクラスタのノード増設を年度早期に行い,複数の類似結合アルゴリズムの実装とHSJ+BRによる対応方式の実装等を実施する.
|