研究課題/領域番号 |
22K21288
|
研究種目 |
研究活動スタート支援
|
配分区分 | 基金 |
審査区分 |
1001:情報科学、情報工学およびその関連分野
|
研究機関 | 東京都市大学 |
研究代表者 |
増田 聡 東京都市大学, メディア情報学部, 教授 (60947927)
|
研究期間 (年度) |
2022-08-31 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
2,860千円 (直接経費: 2,200千円、間接経費: 660千円)
2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | データサイエンス / 自動特徴量エンジニアリング / 自然言語処理 / 時系列特徴量 / 時系列データ抽出の自動化 / datetime API / 特徴量エンジニアリング / テキスト分析 / ソフトウェア工学 |
研究開始時の研究の概要 |
膨大なデータから新たな知見を得る分析はデータサイエンスと呼ばれ、現在その普及は社会的に重要となっている。本研究では、データサイエンスの作業の中でより経験が必要とされ自動化の効果が大きいデータの特徴量抽出に着目し、従来の数値情報からではなくデータ項目名やデータ記述など、いわゆるメタデータのテキスト情報から特徴量抽出を自動化する新たなアプローチを取る。具体的には、既存のデータサイエンスにおけるデータ記述およびソースコードに対して、自然言語処理やソースコード分析技術を利用し、特徴量の抽出が可能な形で再利用する技術を開発する。
|
研究成果の概要 |
本研究では,データ項目名のテキスト情報から特徴量抽出を自動化する新たなアプローチを取った.具体的には,既存のデータサイエンスにおけるデータ項目名およびソースコードに対して,自然言語処理やソースコード分析技術を利用し,特にdatetime特徴量に着目した知識データベースを作成した.さらに,その知識データベースを利用し,新たに与えられるテキスト情報からdatetime特徴量を推薦するシステムを開発した.また,単語ベクトル化をone-hotベクトルや単語埋め込みの手法を用いて精度の向上を図った.実験では,その知識データベースの分類精度を確認し,予測実タスクに適用し予測精度の向上を確認した.
|
研究成果の学術的意義や社会的意義 |
膨大なデータから新たな知見を得る分析はデータサイエンスと呼ばれ,その普及が推進されている.データの特徴量を抽出する作業は,特徴量エンジニアリングと呼ばれ,データサイエンスの作業ステップの一つである.現在,特徴量エンジニアリングの作業は,エキスパートの経験に頼っているため,その作業の自動化の研究が行われている.本研究は,テキスト情報からdatetime特徴量を推薦する方法を提案し,システムを開発し,有効性を確認した.これにより,自動特徴量エンジニアリングの学術的領域に貢献した.
|