2021 Fiscal Year Research-status Report
Research on Database Systems for Supporting Life Cycles of Data Models based based on conntents
Project/Area Number |
18K11318
|
Research Institution | Tsuda University |
Principal Investigator |
中野 美由紀 津田塾大学, 学芸学部, 教授 (30227863)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Keywords | データベース / データモデル・ライフサイクル / 統計解析 / 機械学習 / データ解析 |
Outline of Annual Research Achievements |
本研究では、コンテンツを主体とした効率のよい「データモデルのライフサイクル」を支援するデータベース環境を確立するために、データモデルのライフサイクルを典型的なデータ解析処理(単純ベイズ、クラスタリング、深層学習等)と具体的事例(政府統計データ、オープンデータ)を用いてコンテンツ主体のデータ管理手法を設計し、「データモデルのライフサイクル」の支援の有効性について具体的事例を基に検討する。「データモデルのライフサイクル」および「知識発見プロセス」の過程からコンテンツと共にあるべきログ情報(クレンジングの過程、特徴量抽出や学習過程等)およびライブラリィ情報(処理アルゴリズム、最終の予測・推定モデル等)に関する検討を行うための、実験環境の準備、整備を行い、予備実験として、新曲が多く発表される音楽(常に変化するデータ)を対象に、音楽配信サイトのデータを利用し、感情空間上にマッピングした音楽データベースの構築を行い、感情空間上における音楽データベースの特徴量の有用性について解析を行った。また、この感情空間上の音楽データベースを利用した音楽推薦システムを構築し、推薦のためのモデルを対象に、モデルのライフサイクルとして、人気度による時間的変動についての解析実験を詳細に行い、ユーザ嗜好と合わせてモデルの精度との関連を記録するためのデータベースにおけるデータ変化の定量的指標として、ユーザが興味を持つアーティストの感情空間上に分布する作品範囲の円を導入し、個人嗜好に合わせつつ時間に配慮した推薦システムのためのウェブ上のデータの変化を追跡した。 昨年度から、機械学習コンテストで多く用いられる人工的なデータセットおよびオンラインチェスゲームのログと実データとして取り上げ、時間的な変化指標としてのモデル精度がデータ分布変化(コンセプトドリフト)の指標として有用であるかの検討を行っている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
データ解析とあわせて、モデルの精度の変化および関連したデータの変化のログ収集のフレームワークを設計し、機械学習コンテストでよく利用される人工的なデータセットおよびオンラインチェスゲームのログを対象とした検討を行った。
|
Strategy for Future Research Activity |
音楽推薦システム、スケジュール推薦システムなどの異なるデータを用いたモデル・ルールに加え、コンセプトドリフトに対応する敵対的学習アルゴリズムにおけるデータとモデル精度の関係、コンセプトドリフトの実例として取り上げられているオンラインチェスゲームのログデータにおけるデータ変化とモデル変化の関連性を明らかにし、機械学習のモデル・ルールのライフサイクルあるいは持続的な運用を支援するデータ基盤のフレームワークを確定する。
|
Causes of Carryover |
新型コロナによる参加予定学会の中止、オンラインによる旅費の利用がなくなったことによる。今年度は新らたに得られた成果を国際学会にて発表する予定である。
|