2019年度は,表形式のデータに関する生成モデルの研究を行った.現在の生成モデルの研究の多くは画像形式のデータである.また,機械翻訳も含めて文,音声・音響といった形式の生成モデルも研究されているが,一般的な表形式のデータの生成モデルはこれまで提案されてこなかった.画像形式などマルチメディアデータとは異なり表形式のデータは実は様々な企業でデータベース化され利用されているため表形式のデータの生成モデルの適用範囲は広い.表形式データの生成モデルが構築できると,画像形式のデータで良く用いられているデータ拡張などが適用可能になる.また,データそのものの背後にある情報を抽出するのに役立つ.特に,本研究では,ドメイン適応と呼ばれる応用を考えて表形式の生成モデルを考える.ドメイン適応とは異なるドメイン間で情報を共有することで,特定のドメインでデータが少ない場合にも効率的に学習する分野である.本研究では,従来の確率モデルによる生成モデルに対して,「生成メカニズム」と呼ばれる属性間の依存関係を考え,生成メカニズムはドメイン間で共通であるという仮定の下でドメイン適用する手法を提案した.これにより,データ数の少ないドメインにおけるデータ生成をドメイン適応させることでデータ拡張し,拡張されたデータで学習することで,適応先ドメインでの学習器の性能を向上させることができる.提案手法は,表形式のデータ全般に適用可能な一般的な手法であるため,この生成モデルを用いてデータ拡張したデータは,機械学習の任意アルゴリズムを使って学習することができため応用範囲も広いと考えられる.本研究は機械学習の難関国際会議であるICMLに採択された.
|