2023 Fiscal Year Research-status Report
多様性・被覆性等を考慮した代表解集合を求める情報抽出機構に関する研究
Project/Area Number |
23K11115
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
大森 匡 電気通信大学, 大学院情報理工学研究科, 教授 (30233274)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Keywords | データ処理基盤 / 多様性検索 / mCK検索 / KNNグラフ / 類似結合 / データマイニング |
Outline of Annual Research Achievements |
本研究の目的は,データマイニング機構Fの出力解を対象に独立性・被覆性や正確さで優れた代表解集合を計算する問題において,その技法とF自身の効率化や適応機構を明らかにすることである.機構Fとしては,地図上のテキストつき点集合から入力キーワードm個を満たすm次多角形を解として列挙する「mCK検索(m-最近接キーワード検索)問題」と,空間類似結合におけるKNN(K近傍)グラフ計算問題を取り上げる.このうちmCK解問題においては,mCK解の「直径」と呼ばれる尺度の小さい順に独立で被覆性のある代表解集合を効率良く計算したい.2023年度は,研究代表者のmCK解計算法の先行研究であるPairwise Expansion法をベースに,DrosouのDisC-diversityに基づいたmCK解の間の支配関係を導入して,独立性と被覆性のある代表解集合を効率良く列挙する技法を作成した.結果,直径の大きさと関係なく対称律を満たす形で独立で被覆性のある代表解集合を得られ,計算リソース上の効率も初歩的な全解計算からの冗長削除法の場合より優れた技法となった. 一方,KNNグラフ計算では,類似結合に基づく高速計算技法の改修提案し,代表解としての品質と計算効率を調べた.KNNグラフは非対称な解集合の計算問題であり,全解計算型の類似結合技法の単純な修正適用では解が欠落する.そこで全解用の基本法であるPrefix-Filtering法を枝刈り戦略で改修したPF/Knng法と,KNNグラフ計算の先行研究L2Knngを空間類似結合向けに改修した技法の実装を行った.結果,類似度としてoverlap類似度で閾値を従来にない低い水準まで下げないと有用で正確なKNNグラフを得られないことと,その低閾値では全技法の計算効率上の改良が必要なことがわかった.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
現代のデータマイニング機構Fにおいてその結果となる出力データ集合側で優れた代表解集合を得るためには,F自身の計算機構の改修や効率化,解集合品質に応じた適応力をF内部に持たせる必要がある.機構Fとして,本研究は,mCK検索問題,および,空間類似結合によるKNN(K近傍)グラフ計算,の2つを取り上げている.2023年度は,mCK解計算において,支配関係としてmCK解の直径の中点を中心とした半径rの円を与えて多様性検索の代表例DisC-diversityを適用した効率的計算技法を実装した.支配関係をどう与えるかは難しい選択であり,Drosouの基準に沿って直径長と無関係に円の包含関係で支配関係を決める場合の他に,直径の大小関係を入れて半順序となる支配関係も試し,被覆性を満たすが独立にはならない代表解集合の計算と全解集合における極小解を代表解に選ぶ性質も得ている.一方,空間類似結合によるKNNグラフ計算では,既存技法を変形実装して,内容類似度としてoverlap類似度で閾値を従来にない低い水準まで下げないと有用な情報を落とさないKNNグラフにはならないことを確認したが,その低閾値(overlap類似度で閾値1.0付近)は既存の類似結合技法が主な対象としてこなかった領域であり,全技法の計算効率は改善の余地が大きかった.今後,効率化を追及するか正確さの基準を何等か修正して新たな計算技法を目指すかが論点になる.以上の成果を得て研究の初年度実績としては概ね順調と判断した.
|
Strategy for Future Research Activity |
mCK問題については直径一定値以下のmCK解全てを対象にしていくつかの基準で最適な独立・被覆な代表解集合(optimal DisC-diverse set)を求めることを検討し,データベース演算としての効率化と初年度の手法との比較を行う予定である.空間類似結合によるKNNグラフ計算問題では,overlap類似度で閾値を従来にない低い領域まで下げて類似結合でKNNグラフを計算して後でキーワード検索などで利用することが想定されるため,この低閾値領域での類似結合が対象になる.単純に効率化を図るか代表解集合としてのグラフの品質定義か利用法自体に新規修正を入れるか,が難しい.これらの点を検討する.
|
Causes of Carryover |
次年度使用額の発生は,2023年度の成果発表である学会発表2件において当該学会が2件ともハイブリッド実施であり,かつ,この2件をいずれもオンライン発表としたため,当初案で予定されていた旅費が生じなかったためである.2024年度は成果発表2回程度をワークショップなどの対面発表で行うことを予定している.そのため,補助学生2名程度の旅費も含め,次年度申請の助成金申請分と合わせて使用することを計画する.
|