本研究では、コンテンツを主体とした効率のよい「データモデルのライフサイクル」を支援するデータベース環境を確立するために、データモデルのライフサイクルを典型的なデータ解析処理(単純ベイズ、クラスタリング、深層学習等)と具体的事例(政府統計データ、オープンデータ)を用いてコンテンツ主体のデータ管理手法を設計し、「データモデルのライフサイクル」の支援の有効性について具体的事例を基に検討する。「データモデルのライフサイクル」および「知識発見プロセス」の過程からコンテンツと共にあるべきログ情報(クレンジングの過程、特徴量抽出や学習過程等)およびライブラリィ情報(処理アルゴリズム、最終の予測・推定モデル等)に関する検討を行し、時間的変化のあるデータを用いて指標の有効性を確認した。 具体的には、新曲が毎年発表される音楽(常に変化するデータ)を対象に、音楽配信サイトのデータを利用し、感情空間上にマッピングした音楽データベースの構築を行い、感情空間上における音楽データベースの特徴量の有用性について解析を行った。楽曲推薦のための学習モデルを構築し、モデルのライフサイクルとして、人気度による時間的変動についての解析実験を行い、データ変化の定量的指標として、ユーザが興味を持つアーティストの感情空間上に分布する楽曲範囲の円を導入した。 さらに、機械学習コンテストで多く用いられるデータドリフトが起きるデータセットを用いて、過去のデータストリーミングから学習モデルにとって有効なデータ選択をするための指標を求め、不要なデータを削減しつつ、学習モデルの精度を担保することを可能とした。また、データドリフトが起きているオンラインチェスゲームのログを用い、上級者と初心者の判別器を生成し、その有効性を示した。双方の成果は国際会議にて報告した。
|