研究課題/領域番号 |
22K21288
|
研究種目 |
研究活動スタート支援
|
配分区分 | 基金 |
審査区分 |
1001:情報科学、情報工学およびその関連分野
|
研究機関 | 東京都市大学 |
研究代表者 |
増田 聡 東京都市大学, メディア情報学部, 教授 (60947927)
|
研究期間 (年度) |
2022-08-31 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
2,860千円 (直接経費: 2,200千円、間接経費: 660千円)
2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | 時系列データ抽出の自動化 / 特徴量エンジニアリング / データサイエンス / テキスト分析 / 自然言語処理 / ソフトウェア工学 |
研究開始時の研究の概要 |
膨大なデータから新たな知見を得る分析はデータサイエンスと呼ばれ、現在その普及は社会的に重要となっている。本研究では、データサイエンスの作業の中でより経験が必要とされ自動化の効果が大きいデータの特徴量抽出に着目し、従来の数値情報からではなくデータ項目名やデータ記述など、いわゆるメタデータのテキスト情報から特徴量抽出を自動化する新たなアプローチを取る。具体的には、既存のデータサイエンスにおけるデータ記述およびソースコードに対して、自然言語処理やソースコード分析技術を利用し、特徴量の抽出が可能な形で再利用する技術を開発する。
|
研究実績の概要 |
膨大なデータから新たな知見を得る分析はデータサイエンスと呼ばれ、現在その普及は社会的に重要となっている。データサイエンスの主な作業は、(1)データの前処理、(2)分析精度の向上を目的としたデータの特徴量の抽出(特徴量エンジニアリングと言う)、(3)分析のための機械学習モデルの適用から成り、普及を促進する上でこれらの作業の自動化は極めて重要と考えられる。しかしながら、現在もデータサイエンス作業はエキスパートの経験に頼り自動化は進んでいない。本研究では、データサイエンスの作業ステップでより経験が必要とされ自動化の効果が大きい(2)データの特徴量の抽出に着目し、データ項目名やデータ記述など、いわゆるメタデータのテキスト情報から特徴量抽出を自動化する新たな仕組みの開発を目的としている。具体的には、既存のデータサイエンスにおけるデータ記述およびソースコードに対して、自然言語処理やソースコード分析技術を利用し、時系列データの特徴量を抽出が可能な形で再利用する技術を開発する。本年度は、データのテキスト情報から特徴量を抽出する技術の開発を行った。既存のデータサイエンスにおけるソースコードとして、University California San Diego Library Digital Collectionsにある約125万個のjupyter notbook形式のソースコードを用い、時系列(datetime)データを取り扱う命令文を抽出し、「datetime知識データベース」(DTKB)を作成した。また、このDTKBを用い、新たに与えられるデータ項目に対する時系列データ特徴量推薦システムを開発し有効性を確認した。これらの成果を論文にまとめ、国際学会の27th International Conference on Knowledge-Based and Intelligent Information & Engineering Systems (KES 2023)に投稿した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
メタデータのテキスト情報から特徴量抽出を自動化する基本的な仕組みの構想は、研究スタート時点からあり、既存のソースコードとしてUniversity California San Diegoが収集したソースコードを対象とした時点から研究は順調に進んでいる。 DTKBの分類精度の検証も行い、精度の高い分類アルゴリズムの選定も行った。
|
今後の研究の推進方策 |
この研究成果をより多くの方に使っていただけるよう、開発した時系列特徴量の自動抽出システムを公開するように進めたい。また、国内関係者にも成果を共有するため、国内学会でも発表するよう準備を進める。
|