本年度は、様々なデータに適応した分類結果を評価する指標を提案するために、特に非対称データに対応して、手法について検討した。非対称データは、これまでのデータでは対象間の似ている度合い(類似度)もしくは似ていない度合い(非類似度)は双方向からのものが通常同じであるが、友人間の友好度や雑誌の引用頻度など、度合いが異なる場合のデータであり、近年、データ解析の分野で議論されているデータである。今年は昨年度に提案したこのデータに対応する手法に対して、シミュレーションによる結果の評価に加え、理論的に分類する際の現象の出現条件を証明し、これらを国際会議(The 13th International Meeting of the Psychometric Society (IMPS-2003))で発表した。発表の際に非対象データに対応した手法の欠点について指摘があり、このことは来年度の研究課題とする。 また、提案した手法を普段使い慣れた環境(Excelなど)で利用可能とするプロジェクトDLLSAでも非対象クラスタリング手法を開発し、暫定版として公開を始めた。なお、DLLSAの詳細として、国際雑誌(Computational Statistics and Data Analysis)にて雑誌発表した。なお、これらの具体的な利用法やその効果について、2004年1月に統計数理研究所で行われた2003年度統計数理研究所プロジェクト研究による研究会にて報告した(竹内光悦、宿久洋、稲田浩一(2004)凝縮型階層的分類法における分類結果の評価について、「統計科学情報の高度利用」報告集、37-40)。 来年度は、上記の発表に際に報告した分類結果を評価する指標について、これまでのまとめの論文を発表予定である。
|