2022 Fiscal Year Research-status Report
異なるビッグデータの特徴統合による分散機械学習手法の開発
Project/Area Number |
21K11850
|
Research Institution | Tokyo International University |
Principal Investigator |
土屋 健 東京国際大学, データサイエンス教育研究所, 教授 (90546251)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 分散機械学習 / 特徴モデル結合 / 分散プラットフォーム |
Outline of Annual Research Achievements |
本年は,昨年度までに研究開発で明らかにした分散機械学習基盤を利用したアプリケーションの検討及び評価を行った.具体的には,ユーザの直近の興味予測を行う機械学習モデルの構築を可能としている.現在の興味予測では,cookieを利用して個人を捕捉して特徴を分析することで興味を予測するのに対し,提案手法では,ユーザがwebサービス単位で取得したコンテンツの特徴を示すこれまでに提案している結合可能な機械学習モデル(フォグモデル)を取得し,これらを利用者のweb履歴に基づいて結合することで,利用者の直近における興味特徴を示す機械学習モデルの構築を可能としている.この機械学習モデルは,入力情報に対して,ユーザ興味との類似性を評価が可能であるため,web広告など入力情報の候補から興味に最も類似する情報の選択に利用ができることを明らかにしている.評価として,実際のweb広告サービスログを用いて,cookieを利用した利用者の捕捉を行う従来手法と比較したところ,現在では従来手法の半分程度の性能しか有していないことを明らかにしている.しかし,ユーザの捕捉をおこなわないこと,webサービスで取得した利用者情報が共有されないこと,第三者が利用不可能であることからユーザのプライバシ性に配慮した提案を行なっている.今後性能向上させるための検討,実システムとしての適用するための最適化について検討が必要と考える.本年はこの提案について検討,評価を行い論文執筆まで行なっている.しかし,評価はまだ初期検討に留まっているため,早急に準備を進めている.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本年度は前項に示した分散機械学習基盤のアプリケーションを検討,提案している.現在までに,アルゴリズムを明らかにし,その特性を実際のwebサービスから取得したデータを用いて評価を行った.その結果から,現状の方式よりも性能は劣るが,学習データを移動しないことに起因する利用者のプライバシ性の保護,特定ノードへの負荷分散の回避を実現できる手法であることを明らかにしている. これまでに検討した分散機械学習基盤は,任意の機械学習モデルと結合することを可能としている.しかし,本年度検討したように結合するフォグモデルの決定が何らかの要因によって一意に決定する場合では,結合対象の選択,取得に関して問題はない.しかし,前年度までに明らかにしているように,フォグモデル結合の組み合わせは,処理タスク性能へ大きく影響することが明らかになっている.従って,実サービスでは利用者が結合対象を検討組み合わせを決定することになる.従って,利用者が任意のフォグモデルの選択(検索),結合,分離が可能となるようなフォグモデルの管理機能が分散機械学習基盤に求められると考えている.このフォグモデルの管理は,データを含まないため管理するノードを移動することは問題ない.そこで,本年度では,このフォグモデルの管理にブロックチェーンを採用し,分散独立管理する手法を検討,提案している.しかしながら,コロナ関連の影響のため本年度も引き続き対外的に研究成果の発表,議論の機会が制限された.そのため,第三者からのコメント,助言等が充分に得ているとは言い難く,想定よりも研究の進捗が得られていない.現時点では,本研究代表者とその共同研究者での議論を中心に検討を進めている.現在のところ,基礎理論としてブロックチェーン上での機械学習モデルの管理手法と,基本プロトコルは明らかにしているが,まだ評価が行われていない.
|
Strategy for Future Research Activity |
前項とも関連するが,本年度に検討した分散機械学習基盤を利用した利用者の興味予測の性能を向上させる手法を検討する.具体的には,現状では対象データが限定的であったため,提案手法の課題なのか,対象としたデータに課題があったのか分析できていないため,実webサービスから取得する評価対象データの拡大と,その評価を早急に行う.現在,web広告サービス事業者から,web広告利用ログを取得しており,データの前処理を行なっている.この評価後,提案手法の課題となる点をフィードバックした修正アルゴリズムを検討,対外発表等を行う予定である. 研究の主たる目的である分散機械学習基盤は,分散する機械学習モデルをブロックチェーン上で管理することによる利用者ごとのタスクに応じた機械学習モデルを選択,結合可能であること,選択するために利用者に提供すべき情報を評価から明らかにする.その上で機械学習基盤として求められる機能を明らかにする.現状では,初期評価のための実装を行なっている段階であり,当初の計画よりも遅延が生じているが,今後挽回できるよう検討を進める. 上記の検討から,本研究の提案が実システムとして有効となるようフィードバックを行い,研究を総括するよていである.
|
Causes of Carryover |
コロナ関連の影響で,当初予定していた国内学会,国際学会等での対外発表,聴講機会が極端に少なく,通常業務との兼ね合いもあり,参加機会が限定されてしまったことに起因すると考える.同時に, この機会の減少が第3者との研究に関する議論の機会の減少,他の類似研究に関する知見を学ぶ機会の減少に起因して研究進捗に影響していることも要因と考える. 次年度は,コロナ影響も少なくなることが想定され,当初の計画に通り進捗ができるよう研究を推進したいと考えている.
|
Research Products
(3 results)
-
-
[Journal Article] Content Selection Methods Using User Interest Prediction Based on Similarities of Web Activities2022
Author(s)
Takeshi Tsuchiya, Rika Misawa, Ryuichi Mochizuki, Hiroo Hirose, Tetsuyasu Yamada, Yoshito Yamamoto, Hiroshi Ichikawa , Quang Tran Minh
-
Journal Title
Future Data and Security Engineering. Big Data, Security and Privacy, Smart City and Industry 4.0 Applications. FDSE 2022. Communications in Computer and Information Science,
Volume: vol 1688.
Pages: -
Peer Reviewed / Int'l Joint Research
-