2021 Fiscal Year Research-status Report

A Study on Machine Learning Service Infrastructure

Research Project

Project/Area Number	19K20243
Research Institution	Kyoto College of Graduate Studies for Informatics
Principal Investigator	中口孝雄京都情報大学院大学, その他の研究科, 准教授 (20775762)
Project Period (FY)	2019-04-01 – 2023-03-31
Keywords	サービスコンピューティング / Webサービス / 機械学習
Outline of Annual Research Achievements	昨年度論文発表により提案した、サービスインタフェース定義やプロトコルの拡張に基づき、実際にサービスの実装例や連続的に入出力を行う通信方式の実装を行なった。サービスインタフェース定義としては、画像認識、オブジェクト検出、テキスト画像生成、テキスト感情分析、継続的音声認識、音声感情認識、顔ランドマーク検出、表情認識、ポーズ認識、など10種類の定義を行い、一部のインタフェースについて、実際にオープンソースソフトウェアを用いたサービス実装を行なっている。実際に実装したサービスは、Kerasを用いた画像認識、YoloV5を用いたオブジェクト検出、Dall-Eを用いたテキスト画像生成、BERTを用いたテキスト感情分析、VOSKを用いた継続的音声認識、Empathを用いた音声感情認識である。本年度も継続してサービス実装を行う。通信方式の実装では、従来のリクエスト-レスポンス方式に加え、連続的に入出力を行う通信方式を実装し、実装したサービスがこの方式で呼び出せることを確認している。具体的には、サービスインタフェース定義に基づいたメソッド呼び出しをデータパケットに変換し、非同期通信を経由してサーバに送信し、結果を同じく非同期通信で受信する方式を採用している。また、サービスを利用したアプリケーションとして、機械学習サービスを用いた機能を実装したビデオ会議システムを開発中であり、本年度は得られた成果を論文にまとめるとともに、実装はGitHub等ソースコード公開サイトで公開する予定である。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 世界的な部材不足の影響からサーバの納品が遅れ、機械学習サービスの試作開発および実証例の開発が遅れているため。
Strategy for Future Research Activity	開発は遅れているが、継続的な音声認識、テキスト画像生成(Text-to-image-generation)、音声感情検といった機械学習を応用した機能のサービスインタフェース定義は行えている。最終年度となる本年度は、それらの定義に応じて実際にサービスを開発するとともに、実際に組み合わせてそれを使用したアプリケーションを作成できることを実証し、結果を論文にまとめる予定である。
Causes of Carryover	国際的な部材不足の影響でサーバの納品が遅れ、一部実証作業やそのまとめ作業を翌年度に実施することになったため。