2021 年度実績報告書

異種オープンデータ活用のためのデータ統合・管理基盤の研究開発

研究課題

研究課題/領域番号	21H03555
配分区分	補助金
研究機関	名古屋大学
研究代表者	駒水孝裕名古屋大学, 数理・データ科学教育研究センター, 准教授 (30756367)
研究分担者	井手一郎名古屋大学, 情報学研究科, 教授 (10332157) 波多野賢治同志社大学, 文化情報学部, 教授 (80314532) 石川佳治名古屋大学, 情報学研究科, 教授 (80263440)
研究期間 (年度)	2021-04-01 – 2025-03-31
キーワード	不均衡データ / データ分類 / テキスト分類
研究実績の概要	本年度は，(1) データ統合の際に課題となる属性推定における不均衡性への対処と，(2) テキストデータ処理における``フレーズ''についての一考察を行った． (1) データ統合の際に，異なるデータソースに存在する同一のエンティティが異なる情報を属性として持っていることで，データ統合の性能に影響を与えている．望ましい状況としては，両エンティティが同じ属性を持ち，その属性の一致度合いから，エンティティの同一性を判定することである．しかし，世の中のデータがこの望ましい性質を持っていることは稀である．これに対する解決方法として，クラス分類を用いた属性推定である．これは，エンティティのクラスを属性として用いることであり，そのためにエンティティのクラスを分類するモデルを構築する必要がある．このクラス分類において，データの偏りによって分類性能が十分に向上させられない，という問題がある．これを不均衡性問題という．本研究では，これに対する手法として，昨年度に提案したアンダーサンプリングをベースとしたアンサンブル手法に，距離学習と呼ばれる，特徴量の変換手法を組み合わせることで，性能を向上させた． (2) (1) と関連し，テキストデータの分類に焦点をあて，分類性能を向上させる方法を模索した．昨今では，サブワードと呼ばれる単位でテキストデータを扱うことが多い．また，テキストデータ分類においては，特定の意味を表すフレーズを明示的に扱うことで，その性能が向上することが知られている．一方で，フレーズの考え方をサブワードの文脈ではほとんど考えられていない．本研究では，サブワードの列を明示的に扱うことがどのような効果をもたらすかについて，検証・考察を行った．具体的には，高頻度のサブワード列をストップワードとして扱い，分類性能の向上に寄与することを示した．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由エンティティ同定のための技術の開発ができており，また，テキストデータとの統合・活用に向けた研究が進められており，概ね順調に進展していると言える．
今後の研究の推進方策	今後の推進方策としては，当初計画で扱う予定であった表形式データと画像データの優先順位を入れ替える．これは，当初計画時点よりも画像処理技術が向上しており，データ統合・検索において，優先的に取り組むべきであると判断したためである．

研究成果
(3件)

すべて 2022 2021

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 学会発表 (2件) (うち国際学会 1件)

[雑誌論文] Combining Multi-ratio Undersampling and Metric Learning for Imbalanced Classification2021
- 著者名/発表者名
  Komamizu Takahiro
- 雑誌名
  
  Journal of Data Intelligence
  
  巻: 2 ページ: 462～475
- DOI
  10.26421/JDI2.4-5
- 査読あり / オープンアクセス
[学会発表] ストップフレーズ抽出を併用した文書分類2022
- 著者名/発表者名
  木村優介, 駒水孝裕 , 波多野賢治
- 学会等名
  第14回データ工学と情報マネジメントに関するフォーラム
[学会発表] MMEnsemble: Imbalanced Classification Framework Using Metric Learning and Multi-sampling Ratio Ensemble2021
- 著者名/発表者名
  Takahiro Komamizu
- 学会等名
  DEXA 2021
- 国際学会

2021 年度 実績報告書

異種オープンデータ活用のためのデータ統合・管理基盤の研究開発

研究代表者

駒水 孝裕 名古屋大学, 数理・データ科学教育研究センター, 准教授 (30756367)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Combining Multi-ratio Undersampling and Metric Learning for Imbalanced Classification2021

著者名/発表者名

雑誌名

DOI

[学会発表] ストップフレーズ抽出を併用した文書分類2022

著者名/発表者名

学会等名

[学会発表] MMEnsemble: Imbalanced Classification Framework Using Metric Learning and Multi-sampling Ratio Ensemble2021

著者名/発表者名

学会等名

2021 年度実績報告書

駒水孝裕名古屋大学, 数理・データ科学教育研究センター, 准教授 (30756367)