研究課題/領域番号 |
23500165
|
研究機関 | 北海道大学 |
研究代表者 |
大久保 好章 北海道大学, 情報科学研究科, 助教 (40271639)
|
研究期間 (年度) |
2011-04-28 – 2014-03-31
|
キーワード | Chance Patterns / Colossal Patterns / Pattern Graph |
研究概要 |
本研究課題では,申請者がこれまで携わってきたデータマイニングにおける重要なタスクのひとつであるクラスタ抽出,特に,形式概念に基づくクラスタ抽出の枠組みを基礎とする多視点音楽情報検索のための基盤技術開発を試みる.特にここでは,楽曲の音を信号処理ベースで扱うのではなく,楽譜情報に代表される離散的データとして捉え,純粋な記号論的アプローチにより検索結果を得る枠組みの実現を目指している.今年度の主な成果は次の通りである.チャンスパターン(概念)の抽出アルゴリズム設計:意味的に離れた概念間にまたがるレアな概念をチャンスパターンと呼び,その高速抽出アルゴリズムの設計を行った.特にここでは,文書から重要な(レアな)キーワードを抽出する枠組みである KeyGraph(R)におけるアイデアをもとに,"頻出パターンと共起するレアパターンは重要である"との考えを反映した制約を満たすパターンのみを高速に抽出する基本アルゴリズムを与えた.これにより,異なる視点にまたがるチャンスパターンの抽出が原理的に可能となり,多視点検索へ向けての重要な足掛かりになるものと期待している.長大内包パターンの高速抽出アルゴリズム設計:伝統的な頻出パターンマイニングシステムでは抽出が困難な,長大パターン(概念内包)の抽出アルゴリズムの設計を行った.具体的には,固定長の頻出パターン群の情報を保持するパターングラフをもとに,アイテム間の共起グラフを動的に更新しながら,長さが上位 N である長大パターンを高速に列挙するアルゴリズムを設計・実装し,ベンチマークデータに対してその有効性を確認した.これにより,様々な属性(特徴)を同時に有するパターンの抽出が可能となり,多視点検索における重要な基盤になるものと期待している.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
多視点情報検索に向けてのふたつの基盤アルゴリズムの設計・実装を行い,予備実験を通してそれらの大まかな挙動を把握し,改良点等の洗い出しができた.次年度における具体的な考察課題が明確となり,以降の本格実験に向けての準備が着々と進んでいると考える.これより,当該研究は概ね予定通りに進行していると判断する.
|
今後の研究の推進方策 |
次年度は主に,今年度に設計した基盤アルゴリズムの改良を行う.具体的には,チャンスパターン抽出については,現状のユークリッド距離に基づく単純な概念間距離を洗練化することで,抽出ターゲットとなるパターンをより意味的に明確なものとすることを試みる.また,長大パターン抽出においては,パターングラフ生成の際に行う固定長頻出パターン群抽出の高速化が最重要課題であると考えている.現状は固定長 3 - 4 程度が実質の上限となっているが,これをさらに増大させることができれば,アルゴリズム効率がさらに格段に向上することが見込まれる.これらと並行して,音楽情報検索の分野で 2011年2月に公開された Million Song Dataset を用いた本格実験に備えたデータ整備を進める.
|
次年度の研究費の使用計画 |
より規模の大きなデータに対して実験を行うため,主記憶を拡充した50万円程度の計算サーバの導入を検討したい.これは総容量 280 GB に及ぶ Million Song Dataset の管理を行うデータサーバも兼ねるものとする.これ以外の研究費は主に旅費に充当する予定である.また,今年度未使用額(約55千円)については,増設ハードディスクやデータ記録メディア等の消耗品の購入に使用予定である.
|