2017 Fiscal Year Research-status Report
複数情報源非類似性データに対するデータマッチング法に関する研究
Project/Area Number |
17K00060
|
Research Institution | Doshisha University |
Principal Investigator |
宿久 洋 同志社大学, 文化情報学部, 教授 (50244223)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 正準相関分析法 / 多次元尺度構成法 / 多ドメインマッチング法 / オープンデータ / 制約付き多変量解析法 |
Outline of Annual Research Achievements |
近年,IoTの発達により,複数の情報源からデータが得られた際にそれらのデータを統合,分析を行うための手法の開発が求められている.既存の手法には,Generalized Canonical Correlation analysis (GCANO) やGCANOに対して制約を課したRegularized GCANO,Cross-Domain Matching Correlation Analysis (CDMCA)がある.しかし,データを統合する際に,多くは政府やその他の研究機関が公開しているオープンデータが用いられる.オープンデータは公開を前提としているため,個人が特定できないように,k-匿名化やl-多様性などの方法を用いて,匿名化が行われている.このため,各個人が与えられていることが仮定されている,そのため,従来手法では,データセット間の変量群の関係性について分析を行うことができない. このような背景のもと,本研究では,情報源が複数存在するような非類似性データを想定して,新たな解析法の開発に取り組んでいる.方針としては,(非)類似性データが与えられている場合は多次元尺度構成法を基に拡張を行い,匿名化されたデータに対して適切な量を付与することによって,量質混在データに対応する手法の検討,開発を行う. 本年度は,シングルソースデータに関して,各変量の外部情報を用いた多変量解析手法の提案を行った.具体的には,外部情報を用いた非計量データに対する主成分分析法の提案を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究では,上記実績の通り,いくつかのアプローチで複数の情報源を持つ非類似性データ,特に質的データについて,統計手法の提案に取り組んでいる. 本年度は,複数の情報源を持つデータ分析法の現状を把握し,想定されている大規模複雑類似性データ,分析法,分析結果の評価法について整理を行った.匿名化されたオープンデータからの知識発見に関して,そのニーズは大きく,統計科学の分野からのアプローチのみならず,情報科学の分野からのアプローチが数多く行われている.分析目的も多岐にわたっており,1つの方法論として体系化されていくかどうかは確定的ではない.今後も引き続き,調査していく必要があると考えられる.
|
Strategy for Future Research Activity |
複数の情報源を持つようなデータの分析方法,また,匿名化されたデータの分析方法についてはできる限り,調査を続けていきたいと考えている. それらを,統計科学の立場で位置づけ,体系化ができれば,今後の方法論の発展に寄与できると思われるので,引き続き取り組みたいと考えている. また,従来から,我々の研究グループも含め取り組んできた関連性データを切り口とした大規模複雑データの解析が複数の情報源からデータが得られたときどの程度有効であるのかについても検討を進めたいと考えている.その中で,いくつか新たな分析法の提案も行いたいと考えている. 平成30年度においては,29年度に引き続き,複数情報源非類似性データに対する分析法の総合的な調査,複数情報源非類似性データの新分析法の提案,提案手法の実装及びアルゴリズムの改良,実データに対する提案手法の適用を行い,新たな知見の獲得を目指す.加えて,いくつかの国際会議での発表を予定している.
|
Causes of Carryover |
少額の残が発生した.無理して執行せず,翌年度と合算して使用することにした.
|
Research Products
(9 results)