研究課題/領域番号 |
21H03555
|
配分区分 | 補助金 |
研究機関 | 名古屋大学 |
研究代表者 |
駒水 孝裕 名古屋大学, 数理・データ科学教育研究センター, 准教授 (30756367)
|
研究分担者 |
井手 一郎 名古屋大学, 情報学研究科, 教授 (10332157)
波多野 賢治 同志社大学, 文化情報学部, 教授 (80314532)
石川 佳治 名古屋大学, 情報学研究科, 教授 (80263440)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
キーワード | 不均衡データ / データ分類 / テキスト分類 |
研究実績の概要 |
本年度は,(1) データ統合の際に課題となる属性推定における不均衡性への対処と,(2) テキストデータ処理における``フレーズ''についての一考察を行った. (1) データ統合の際に,異なるデータソースに存在する同一のエンティティが異なる情報を属性として持っていることで,データ統合の性能に影響を与えている.望ましい状況としては,両エンティティが同じ属性を持ち,その属性の一致度合いから,エンティティの同一性を判定することである.しかし,世の中のデータがこの望ましい性質を持っていることは稀である.これに対する解決方法として,クラス分類を用いた属性推定である.これは,エンティティのクラスを属性として用いることであり,そのためにエンティティのクラスを分類するモデルを構築する必要がある.このクラス分類において,データの偏りによって分類性能が十分に向上させられない,という問題がある.これを不均衡性問題という.本研究では,これに対する手法として,昨年度に提案したアンダーサンプリングをベースとしたアンサンブル手法に,距離学習と呼ばれる,特徴量の変換手法を組み合わせることで,性能を向上させた. (2) (1) と関連し,テキストデータの分類に焦点をあて,分類性能を向上させる方法を模索した.昨今では,サブワードと呼ばれる単位でテキストデータを扱うことが多い.また,テキストデータ分類においては,特定の意味を表すフレーズを明示的に扱うことで,その性能が向上することが知られている.一方で,フレーズの考え方をサブワードの文脈ではほとんど考えられていない.本研究では,サブワードの列を明示的に扱うことがどのような効果をもたらすかについて,検証・考察を行った.具体的には,高頻度のサブワード列をストップワードとして扱い,分類性能の向上に寄与することを示した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
エンティティ同定のための技術の開発ができており,また,テキストデータとの統合・活用に向けた研究が進められており,概ね順調に進展していると言える.
|
今後の研究の推進方策 |
今後の推進方策としては,当初計画で扱う予定であった表形式データと画像データの優先順位を入れ替える.これは,当初計画時点よりも画像処理技術が向上しており,データ統合・検索において,優先的に取り組むべきであると判断したためである.
|