2021 Fiscal Year Annual Research Report

Management and Integration for Linked Open Multimedia Data

Research Project

Project/Area Number	21H03555
Allocation Type	Single-year Grants
Research Institution	Nagoya University
Principal Investigator	駒水孝裕名古屋大学, 数理・データ科学教育研究センター, 准教授 (30756367)
Co-Investigator(Kenkyū-buntansha)	井手一郎名古屋大学, 情報学研究科, 教授 (10332157) 波多野賢治同志社大学, 文化情報学部, 教授 (80314532) 石川佳治名古屋大学, 情報学研究科, 教授 (80263440)
Project Period (FY)	2021-04-01 – 2025-03-31
Keywords	不均衡データ / データ分類 / テキスト分類
Outline of Annual Research Achievements	本年度は，(1) データ統合の際に課題となる属性推定における不均衡性への対処と，(2) テキストデータ処理における``フレーズ''についての一考察を行った． (1) データ統合の際に，異なるデータソースに存在する同一のエンティティが異なる情報を属性として持っていることで，データ統合の性能に影響を与えている．望ましい状況としては，両エンティティが同じ属性を持ち，その属性の一致度合いから，エンティティの同一性を判定することである．しかし，世の中のデータがこの望ましい性質を持っていることは稀である．これに対する解決方法として，クラス分類を用いた属性推定である．これは，エンティティのクラスを属性として用いることであり，そのためにエンティティのクラスを分類するモデルを構築する必要がある．このクラス分類において，データの偏りによって分類性能が十分に向上させられない，という問題がある．これを不均衡性問題という．本研究では，これに対する手法として，昨年度に提案したアンダーサンプリングをベースとしたアンサンブル手法に，距離学習と呼ばれる，特徴量の変換手法を組み合わせることで，性能を向上させた． (2) (1) と関連し，テキストデータの分類に焦点をあて，分類性能を向上させる方法を模索した．昨今では，サブワードと呼ばれる単位でテキストデータを扱うことが多い．また，テキストデータ分類においては，特定の意味を表すフレーズを明示的に扱うことで，その性能が向上することが知られている．一方で，フレーズの考え方をサブワードの文脈ではほとんど考えられていない．本研究では，サブワードの列を明示的に扱うことがどのような効果をもたらすかについて，検証・考察を行った．具体的には，高頻度のサブワード列をストップワードとして扱い，分類性能の向上に寄与することを示した．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason エンティティ同定のための技術の開発ができており，また，テキストデータとの統合・活用に向けた研究が進められており，概ね順調に進展していると言える．
Strategy for Future Research Activity	今後の推進方策としては，当初計画で扱う予定であった表形式データと画像データの優先順位を入れ替える．これは，当初計画時点よりも画像処理技術が向上しており，データ統合・検索において，優先的に取り組むべきであると判断したためである．

Research Products
(3 results)

All 2022 2021

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (2 results) (of which Int'l Joint Research: 1 results)

[Journal Article] Combining Multi-ratio Undersampling and Metric Learning for Imbalanced Classification2021
- Author(s)
  Komamizu Takahiro
- Journal Title
  
  Journal of Data Intelligence
  
  Volume: 2 Pages: 462～475
- DOI
  10.26421/JDI2.4-5
- Peer Reviewed / Open Access
[Presentation] ストップフレーズ抽出を併用した文書分類2022
- Author(s)
  木村優介, 駒水孝裕 , 波多野賢治
- Organizer
  第14回データ工学と情報マネジメントに関するフォーラム
[Presentation] MMEnsemble: Imbalanced Classification Framework Using Metric Learning and Multi-sampling Ratio Ensemble2021
- Author(s)
  Takahiro Komamizu
- Organizer
  DEXA 2021
- Int'l Joint Research

2021 Fiscal Year Annual Research Report

Management and Integration for Linked Open Multimedia Data

Principal Investigator

駒水 孝裕 名古屋大学, 数理・データ科学教育研究センター, 准教授 (30756367)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Combining Multi-ratio Undersampling and Metric Learning for Imbalanced Classification2021

Author(s)

Journal Title

DOI

[Presentation] ストップフレーズ抽出を併用した文書分類2022

Author(s)

Organizer

[Presentation] MMEnsemble: Imbalanced Classification Framework Using Metric Learning and Multi-sampling Ratio Ensemble2021

Author(s)

Organizer

駒水孝裕名古屋大学, 数理・データ科学教育研究センター, 准教授 (30756367)