• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2021 Fiscal Year Annual Research Report

Management and Integration for Linked Open Multimedia Data

Research Project

Project/Area Number 21H03555
Allocation TypeSingle-year Grants
Research InstitutionNagoya University

Principal Investigator

駒水 孝裕  名古屋大学, 数理・データ科学教育研究センター, 准教授 (30756367)

Co-Investigator(Kenkyū-buntansha) 井手 一郎  名古屋大学, 情報学研究科, 教授 (10332157)
波多野 賢治  同志社大学, 文化情報学部, 教授 (80314532)
石川 佳治  名古屋大学, 情報学研究科, 教授 (80263440)
Project Period (FY) 2021-04-01 – 2025-03-31
Keywords不均衡データ / データ分類 / テキスト分類
Outline of Annual Research Achievements

本年度は,(1) データ統合の際に課題となる属性推定における不均衡性への対処と,(2) テキストデータ処理における``フレーズ''についての一考察を行った.
(1) データ統合の際に,異なるデータソースに存在する同一のエンティティが異なる情報を属性として持っていることで,データ統合の性能に影響を与えている.望ましい状況としては,両エンティティが同じ属性を持ち,その属性の一致度合いから,エンティティの同一性を判定することである.しかし,世の中のデータがこの望ましい性質を持っていることは稀である.これに対する解決方法として,クラス分類を用いた属性推定である.これは,エンティティのクラスを属性として用いることであり,そのためにエンティティのクラスを分類するモデルを構築する必要がある.このクラス分類において,データの偏りによって分類性能が十分に向上させられない,という問題がある.これを不均衡性問題という.本研究では,これに対する手法として,昨年度に提案したアンダーサンプリングをベースとしたアンサンブル手法に,距離学習と呼ばれる,特徴量の変換手法を組み合わせることで,性能を向上させた.
(2) (1) と関連し,テキストデータの分類に焦点をあて,分類性能を向上させる方法を模索した.昨今では,サブワードと呼ばれる単位でテキストデータを扱うことが多い.また,テキストデータ分類においては,特定の意味を表すフレーズを明示的に扱うことで,その性能が向上することが知られている.一方で,フレーズの考え方をサブワードの文脈ではほとんど考えられていない.本研究では,サブワードの列を明示的に扱うことがどのような効果をもたらすかについて,検証・考察を行った.具体的には,高頻度のサブワード列をストップワードとして扱い,分類性能の向上に寄与することを示した.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

エンティティ同定のための技術の開発ができており,また,テキストデータとの統合・活用に向けた研究が進められており,概ね順調に進展していると言える.

Strategy for Future Research Activity

今後の推進方策としては,当初計画で扱う予定であった表形式データと画像データの優先順位を入れ替える.これは,当初計画時点よりも画像処理技術が向上しており,データ統合・検索において,優先的に取り組むべきであると判断したためである.

  • Research Products

    (3 results)

All 2022 2021

All Journal Article (1 results) (of which Peer Reviewed: 1 results,  Open Access: 1 results) Presentation (2 results) (of which Int'l Joint Research: 1 results)

  • [Journal Article] Combining Multi-ratio Undersampling and Metric Learning for Imbalanced Classification2021

    • Author(s)
      Komamizu Takahiro
    • Journal Title

      Journal of Data Intelligence

      Volume: 2 Pages: 462~475

    • DOI

      10.26421/JDI2.4-5

    • Peer Reviewed / Open Access
  • [Presentation] ストップフレーズ抽出を併用した文書分類2022

    • Author(s)
      木村 優介, 駒水 孝裕 , 波多野 賢治
    • Organizer
      第14回データ工学と情報マネジメントに関するフォーラム
  • [Presentation] MMEnsemble: Imbalanced Classification Framework Using Metric Learning and Multi-sampling Ratio Ensemble2021

    • Author(s)
      Takahiro Komamizu
    • Organizer
      DEXA 2021
    • Int'l Joint Research

URL: 

Published: 2022-12-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi