膨大なデータから新たな知見を得る分析はデータサイエンスと呼ばれ、現在その普及は社会的に重要となっている。本研究では、データサイエンスの作業ステップでより経験が必要とされ自動化の効果が大きいデータの特徴量の抽出に着目し、データ項目名やデータ記述など、いわゆるメタデータのテキスト情報から特徴量抽出を自動化する新たな仕組みの開発を目的としている。具体的には、既存のデータサイエンスにおけるデータ記述およびソースコードに対して、自然言語処理やソースコード分析技術を利用し、時系列データの特徴量を抽出が可能な形で再利用する技術を開発することを目的とした。既存のデータサイエンスにおけるソースコードとして、University California San Diego Library Digital Collectionsにある約125万個のjupyter notbook形式のソースコードを用い、時系列(datetime)データを取り扱う命令文を抽出し、「datetime知識データベース」(DTKB)を作成した。また、このDTKBを用い、新たに与えられるデータ項目に対する時系列データ特徴量推薦システムを開発し有効性を確認した。初年度は、データのテキスト情報から特徴量を抽出する技術の開発を行い、最終年度は特徴量抽出にWord Embeddingによるベクトル化手法を適用し高精度化を図った。これらの成果を論文にまとめ、国際学会の27th International Conference on Knowledge-Based and Intelligent Information & Engineering Systems (KES 2023)に採録され、2023年9月に発表した。また、2024年1月に電子情報通信学会知能ソフトウェア工学研究会において研究成果を発表した。
|