2021 Fiscal Year Research-status Report
異なるビッグデータの特徴統合による分散機械学習手法の開発
Project/Area Number |
21K11850
|
Research Institution | Suwa University of Science |
Principal Investigator |
土屋 健 公立諏訪東京理科大学, 工学部, 准教授 (90546251)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 分散機械学習 / 特徴モデル結合 / 分散プラットフォーム / フォグコンピューティング |
Outline of Annual Research Achievements |
本年は,分散するノードが管理するデータを集積することなく,機械学習を実現するための分散基盤として必要となる機能を明確化した.具体的には,フォグコンピューティングモデルによる分散するデータ環境において,統計情報の導出と同期するプロトコルを明らかにした.そして,エミュレーションによる分散スケーラビリティに関する評価を行い,100ノード程度の分散までは従来のデータ集積型モデルとデータ分散型モデルでは大きく変化しないことを明らかにしている.しかし,これ以上のデータ分散スケーラビリティは,分散数に比例して低下することを明らかにしている.
構築された分散データの統計情報を用いて,フォグノードの単位でそれぞれが自然言語処理を行う機械学習の特徴モデルを構築する.各特徴モデルは,管理するデータの特徴を持つモデルであり,これら特徴モデルを結合することで処理タスクに適応した特徴モデルを構築できることを明らかにした.本年は,複数の結合手法を検討し,同一の文書コーパスに対して,結合による性能評価を比較した.特に,結合可能な特徴モデルの候補から,最も類似性の低い特徴モデルから結合した手法が結合による性能向上と,計算負荷を両立しており,現実的な手法であった.本手法では,類似性の高いモデルを中心として特徴モデルを結合した場合,特定の特徴に対して過学習が発生すると分析している.
研究実績としては,本年度は前述の機能をソフトウェアとして実装し,これを利用した評価を行った.これら結果の一部を学術論文1件,査読付国際プロシーディングス1件,国内研究会1件として発表した.関連する研究発表がその他2件としている.本年度はコロナ関連の影響により,計画で想定していた国際会議での研究発表よりも少なく,研究誌のものは順調に進捗しているが対外発表に課題がある.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本年度は,分散するデータからフォグコンピューティングモデルを用いてそれぞれ統計データを導出し,これら導出データを統合・ノード間で同期を行う分散情報プラットフォームの実装と分散スケーラビリティに関する評価を行った,現時点では,100ノード程度の分散まで実用的な性能を有していることを明らかにしている.そして,この実装を利用して,分散機械学習モデルの構築を可能とした. 構築した機械学習の特徴モデルを結合し,コーパスを利用した評価を行った.本研究代表者らがこれまで行っていた従来の分散特徴モデルの結合は近接する特徴モデルを結合する逐次結合方式であった.この手法では全特徴モデルを結合することにより,データ集積型で構築した特徴モデルと同等の性能を有していることを明らかにしている.本年度は,この手法に加えて特徴モデルの結合後に,処理タスクへ類似する評価データの性能をみて結合を判断する適応型選定手法,現在の特徴モデルと類似する特徴モデルを検索し結合していく類似モデル検索手法を提案している.評価からこれら提案した2手法は,特徴モデルを選定して結合を判断することから,分散する特徴モデルを効率的に結合していること,30ノード程度のフォグノードへの到達により,従来の全特徴モデルの結合よりも性能が向上していることを明らかにしている.しかし,現在の評価ではコーパスの利用であるため評価データはデータの偏りがなく,実データとは異なる性能を持つ可能性がある.そのため,今後実データを利用した評価が必要であると考える. 研究自体は順調に進捗しているが,コロナ関連で対外発表の機会が限定されている.特に,国際会議への投稿機会が減少しているという観点で,やや遅れていると判断した.
|
Strategy for Future Research Activity |
現在の分散するフォグノードは、互いの状態を監視する機能を持たず、サービスとしての可用性は限定的である。今後、クラウドコンピューティング技術を応用し、ノード間の構造化モデルを検討して、フォグノード機能の拡張性を向上させる必要がある。同時に、各フォグノードはユーザの要求に基づいて特徴モデルを評価し、手法ごとに類似度を導出するため、特徴モデル自体をフォグノード空間で構造化して管理することが望ましいと考えられる。従って、フォグノードでの処理を軽減し、スケーラビリティを向上させることが期待される。 本年度検討した特徴モデルの結合手法は,それぞれ異なる特性を持つ.そのため,処理タスクの特性,ユーザの状況や要求に応じて適応可能であるため、分散特徴モデルの最適化手法として複数の手法からどの結合手法を採用すれば良いのか選定アルゴリズムを検討を予定している.
本年度の評価では、用いたデータは大規模なコーパスのデータであり、フォグノードが管理するデータも極端に偏っていないことが前提である。実際のサービス利用環境では、ユーザやグループごとにデータの偏りがあることは容易に想像できる。そこで、当面の課題として、データの偏りがある実環境を想定して、提案する特徴モデルの選択・組み合わせ手法の性能を評価する予定である。
本年度提案した結合手法はいずれも選択的に結合対象を決定する.従って,効率的に特徴モデルに到達するためには,フォグノードが管理する特徴モデルに効率的に到達するには,一意の指標に基づいて構造的に管理する手法が適していると考える.今後,構築した特徴モデルの構造化した管理手法の検討を行う予定である.
|
Causes of Carryover |
コロナ関連で当初計画していた海外,国内どちらの研究発表が開催されなかったため,予定していた支出が行われなかった.研究成果については,予定通り進捗しているため次年度に合わせて発表したい.物品に関しても半導体不足に起因して,購入が遅れた分もあるため次年度にあわせて購入したいと考える.
|