本研究では,データ項目名のテキスト情報から特徴量抽出を自動化する新たなアプローチを取った.具体的には,既存のデータサイエンスにおけるデータ項目名およびソースコードに対して,自然言語処理やソースコード分析技術を利用し,特にdatetime特徴量に着目した知識データベースを作成した.さらに,その知識データベースを利用し,新たに与えられるテキスト情報からdatetime特徴量を推薦するシステムを開発した.また,単語ベクトル化をone-hotベクトルや単語埋め込みの手法を用いて精度の向上を図った.実験では,その知識データベースの分類精度を確認し,予測実タスクに適用し予測精度の向上を確認した.
|