研究課題/領域番号 |
18K11442
|
研究機関 | 北海道情報大学 |
研究代表者 |
内山 俊郎 北海道情報大学, 経営情報学部, 教授 (80708644)
|
研究分担者 |
甫喜本 司 北海道情報大学, 情報メディア学部, 教授 (00241373)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | トピックモデル / 解の多様性 / 多次元尺度法 / 解の特徴分布 / 特徴のベクトル量子化 |
研究実績の概要 |
2020年度は、2019年度にまとめた多様な解の分析方法(論文誌掲載済み)について、学会発表時や論文の査読者から頂いたアドバイスを参考にして、さらなる検討を行った。論文掲載となった分析方法は、解同士の正規化相互情報量を用いて、解に座標値を割り当てるものであった。この方法は、人間の目でパラメータ(解)の数値を見ても違いが把握できない問題を回避し、相互情報量で解同士の関係性を明らかにする点で優れていたが、一方で、その違いを人間が実感できないという問題があった。人間にとって分かりやすいトピックの特徴分布(文書であれば、単語の出現頻度情報)の関係性に着目して、多様な解における共通点と相違点を明らかにする分析方法に着手し、研究会に2度発表するなど、手法として示すことができる段階に至った。発表題目「トピックモデルに関する様々な解の特徴分布に基づく分析」においては、2019年度は着想段階であった特徴分布に基づく分析方法を、妥当性の裏付けとなる実験なども加えてまとめている。 解の特徴分布に基づく分析方法について、説明する。まず、解集合に属するすべての特徴分布をクラスタリングし、それぞれの解をクラスタラベル集合として表す。このとき得られる量子化された特徴分布(代表特徴分布)間の類似性を用い、解を表すクラスタラベル集合間にある「特徴分布の類似関係」をも表す方法を提案している。これにより、解同士の関係性を見る時に、非常に近い特徴(同一クラスタラベル)と類似性がある特徴(類似度が一定以上)の2段階で表すことができる。クラスタリング(ベクトル量子化)で得られた特徴が、元の特徴分布集合の性質を保持しているかについても実験により検証している。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
トピックモデルの多様な解の分析方法として、2019年度にまとめた内容(論文掲載済み)は、当初目指していた内容であり、計画通りと考えている。査読者からのアドバイスに基づいて、さらなる発展を目指した研究「特徴分布に着目した解同士の関係性の分析」も、分析方法として確立できる見通しがある状況であり、順調に進展していると判断している。
|
今後の研究の推進方策 |
2021年度に取り組んだ「特徴分布に着目した解同士の関係性の分析」について、まとめることを考えている。その時に、すでに論文としてまとめた「トピック分布に基づく解同士の関係性の分析」方法と結びつけて検討を進めたい。 時系列データの分析については、時間的・空間的な変動を観測した時空間データのモデル化の方法について応用の観点より検討を進める予定である。具体的には、近年深刻化するマレーシアの大気汚染に焦点をあて、マレーシア政府から発表されている各都市の大気汚染指数(AQI)のデータを基に時空間モデルを開発したとき、既存の時系列モデルを用いた予測性能を改善できるかどうかについての検討を考えている。
|
次年度使用額が生じた理由 |
出張を伴う学会発表や、国際会議での発表を予定してたが、コロナ禍において、発表などの予定を立てられなくなったためである。次年度は、論文掲載や学会発表のために利用する予定である。
|