2021 Fiscal Year Annual Research Report
Establishment of a diversity analysis method for probabilistic latent semantic analysis solutions
Project/Area Number |
18K11442
|
Research Institution | Hokkaido Information University |
Principal Investigator |
内山 俊郎 北海道情報大学, 経営情報学部, 教授 (80708644)
|
Co-Investigator(Kenkyū-buntansha) |
甫喜本 司 北海道情報大学, 情報メディア学部, 教授 (00241373)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | トピックモデル / 解の多様性 / 多次元尺度法 / 解のトピック分布 / 解の単語分布 / 単語分布のベクトル量子化 |
Outline of Annual Research Achievements |
2021年度は、2019年度に論文掲載した内容を発展させる研究を進め、その成果を論文として投稿し採録が決定した(2022年5月掲載予定)。クラスタリングやトピックモデルの多様な解の分析や可視化の研究は、クラスタラベルやトピック分布を分析対象としていたため、分析や可視化の結果を見てもどのような解が存在するかまでは把握できなかった(2019年度の論文もトピック分布を対象としていた)。トピックの特徴は単語分布に現れるので、単語分布に基づく分析・可視化を行う研究に取り組み、「利用者がもつ対象に関する知識に照らし合わせた解の選択」が可能になることを目指した。論文の題目は「トピックモデルにおける多様な解の単語分布に基づく解析」である。 本研究が着目したのは「ある程度類似するトピック(単語分布)をグループとして見ると、グループに属する単語分布の出現パターン(=頻度分布)にいくつかの類型がある」ことである。この仮定の下、多数の解から得られた単語分布をベクトル量子化し、全単語分布を近似する代表単語分布を得て、それらにある類似関係を用いて「代表単語分布の類似ネットワーク」として表し、そこから前述の「類型」を見つける方法を提案した。 分析対象としたデータセットは3つ。例えばNYtimesでは、トピック数を10としたときの典型的な解においては、「スポーツ、市場、IT、大統領選挙、国際紛争、薬、学校、エンターテイメント、住居、食事」というトピックが含まれ、これを含めたいくつかの類型が見られることを明らかにし、当初の目的に対して有用であることを確認した。 これまでの研究は、トピックモデルの解(トピック分布、単語分布)の多様性の解析に関することである。トピック分布と単語分布のそれぞれに着目した分析を行い、当初の目標に沿った形で成果をまとめることができたと考える。
|