研究課題/領域番号 |
21K21279
|
研究種目 |
研究活動スタート支援
|
配分区分 | 基金 |
審査区分 |
1001:情報科学、情報工学およびその関連分野
|
研究機関 | 東京大学 |
研究代表者 |
中丸 智貴 東京大学, 大学院総合文化研究科, 助教 (70908293)
|
研究期間 (年度) |
2021-08-30 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
3,120千円 (直接経費: 2,400千円、間接経費: 720千円)
2022年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2021年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
|
キーワード | 機械学習 / データサイエンス / Python / Jupyter Notebook / 探索的プログラミング / 基盤的ソフトウェア / ソフトウェア開発効率化 / 効率化 |
研究開始時の研究の概要 |
機械学習システムの開発には試行錯誤が欠かせない。最良のハイパーパラメータ値やデータ前処理方法を事前に知ることはできないため、プログラムの修正と結果比較を繰り返す試行錯誤を行って、実験的に最良策を探す必要があるからである。しかし素朴に試行錯誤を行うと、どの試行でも共通する部分が毎回再計算され非効率である。この非効率を解消すべく、本研究では、関数に自動で永続メモ化を施す(=キャッシュ処理を追加する)Pythonライブラリの開発に取り組む。そのようなライブラリにより、資源の浪費を抑え、機械学習を利用したソフトウェア・システムの効率的な開発を実現することを目指す。
|
研究成果の概要 |
本研究では分岐を行える Multiverse Notebook という Jupyter Notebook 風のプログラミング環境の開発に取り組んだ。申請当初は、データ変更を高水準なレベルで検知し、変更がない場合に再計算を省略するライブラリの構築を提案していた。しかし当初の提案内容は、計算コストが非実用的である上に、どの部分が再計算されているのかがプログラマには不可視になり不便であることが研究を進めた結果明らかになった。そこでこの問題の回避する方法を検討し、Multiverse Notebook というプログラミング環境と、それを実現するために必要な効率的分岐の実現技術の開発に取り組んだ。
|
研究成果の学術的意義や社会的意義 |
本研究は、データサイエンスやAI構築におけるプログラマの試行錯誤の効率化を目指して開始された研究である。プログラマの試行錯誤とは、データの分析方法や予測モデルの種類、それらのハイパーパラメータを変えながら最善策を実験的に探索する過程である。データサイエンスやAI構築におけるそのような要素は事前に理論的に決めることが現状不可能であり、このような過程は避けることができない。本研究で構築した Multiverse Notebook は、分岐が行えるようにすることで、そのような試行錯誤を効率的に行えるように設計したプログラミング環境である。特にその分岐を時間・空間的に高い効率で行える点に特徴がある。
|