2023 Fiscal Year Final Research Report
Development of a platform for automatic data science by using text information in metadata
Project/Area Number |
22K21288
|
Research Category |
Grant-in-Aid for Research Activity Start-up
|
Allocation Type | Multi-year Fund |
Review Section |
1001:Information science, computer engineering, and related fields
|
Research Institution | Tokyo City University |
Principal Investigator |
Masuda Satoshi 東京都市大学, メディア情報学部, 教授 (60947927)
|
Project Period (FY) |
2022-08-31 – 2024-03-31
|
Keywords | データサイエンス / 自動特徴量エンジニアリング / 自然言語処理 / 時系列特徴量 |
Outline of Final Research Achievements |
In this research, we took a new approach to automate feature extraction from textual information of data item names. Specifically, we created a knowledge database focusing on time series (datetime) features by using natural language processing and source code analysis techniques for data item names and source codes in existing data science. Furthermore, we developed a system that recommends datetime features from newly provided text information using the knowledge database. For the feature recommendation mechanism, we improved the accuracy of word vectorization by using one-hot vector and word embedding methods. In experiments, we confirmed the classification accuracy of the knowledge database and applied it to actual forecasting tasks, such as house price forecasting, to confirm the improvement in forecasting accuracy.
|
Free Research Field |
ソフトウェア工学
|
Academic Significance and Societal Importance of the Research Achievements |
膨大なデータから新たな知見を得る分析はデータサイエンスと呼ばれ,その普及が推進されている.データの特徴量を抽出する作業は,特徴量エンジニアリングと呼ばれ,データサイエンスの作業ステップの一つである.現在,特徴量エンジニアリングの作業は,エキスパートの経験に頼っているため,その作業の自動化の研究が行われている.本研究は,テキスト情報からdatetime特徴量を推薦する方法を提案し,システムを開発し,有効性を確認した.これにより,自動特徴量エンジニアリングの学術的領域に貢献した.
|