Project/Area Number |
22K21288
|
Research Category |
Grant-in-Aid for Research Activity Start-up
|
Allocation Type | Multi-year Fund |
Review Section |
1001:Information science, computer engineering, and related fields
|
Research Institution | Tokyo City University |
Principal Investigator |
増田 聡 東京都市大学, メディア情報学部, 教授 (60947927)
|
Project Period (FY) |
2022-08-31 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥2,860,000 (Direct Cost: ¥2,200,000、Indirect Cost: ¥660,000)
Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2022: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
|
Keywords | 時系列データ抽出の自動化 / 特徴量エンジニアリング / データサイエンス / テキスト分析 / 自然言語処理 / ソフトウェア工学 |
Outline of Research at the Start |
膨大なデータから新たな知見を得る分析はデータサイエンスと呼ばれ、現在その普及は社会的に重要となっている。本研究では、データサイエンスの作業の中でより経験が必要とされ自動化の効果が大きいデータの特徴量抽出に着目し、従来の数値情報からではなくデータ項目名やデータ記述など、いわゆるメタデータのテキスト情報から特徴量抽出を自動化する新たなアプローチを取る。具体的には、既存のデータサイエンスにおけるデータ記述およびソースコードに対して、自然言語処理やソースコード分析技術を利用し、特徴量の抽出が可能な形で再利用する技術を開発する。
|
Outline of Annual Research Achievements |
膨大なデータから新たな知見を得る分析はデータサイエンスと呼ばれ、現在その普及は社会的に重要となっている。データサイエンスの主な作業は、(1)データの前処理、(2)分析精度の向上を目的としたデータの特徴量の抽出(特徴量エンジニアリングと言う)、(3)分析のための機械学習モデルの適用から成り、普及を促進する上でこれらの作業の自動化は極めて重要と考えられる。しかしながら、現在もデータサイエンス作業はエキスパートの経験に頼り自動化は進んでいない。本研究では、データサイエンスの作業ステップでより経験が必要とされ自動化の効果が大きい(2)データの特徴量の抽出に着目し、データ項目名やデータ記述など、いわゆるメタデータのテキスト情報から特徴量抽出を自動化する新たな仕組みの開発を目的としている。具体的には、既存のデータサイエンスにおけるデータ記述およびソースコードに対して、自然言語処理やソースコード分析技術を利用し、時系列データの特徴量を抽出が可能な形で再利用する技術を開発する。本年度は、データのテキスト情報から特徴量を抽出する技術の開発を行った。既存のデータサイエンスにおけるソースコードとして、University California San Diego Library Digital Collectionsにある約125万個のjupyter notbook形式のソースコードを用い、時系列(datetime)データを取り扱う命令文を抽出し、「datetime知識データベース」(DTKB)を作成した。また、このDTKBを用い、新たに与えられるデータ項目に対する時系列データ特徴量推薦システムを開発し有効性を確認した。これらの成果を論文にまとめ、国際学会の27th International Conference on Knowledge-Based and Intelligent Information & Engineering Systems (KES 2023)に投稿した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
メタデータのテキスト情報から特徴量抽出を自動化する基本的な仕組みの構想は、研究スタート時点からあり、既存のソースコードとしてUniversity California San Diegoが収集したソースコードを対象とした時点から研究は順調に進んでいる。 DTKBの分類精度の検証も行い、精度の高い分類アルゴリズムの選定も行った。
|
Strategy for Future Research Activity |
この研究成果をより多くの方に使っていただけるよう、開発した時系列特徴量の自動抽出システムを公開するように進めたい。また、国内関係者にも成果を共有するため、国内学会でも発表するよう準備を進める。
|