2019 Fiscal Year Research-status Report
Project/Area Number |
18K11442
|
Research Institution | Hokkaido Information University |
Principal Investigator |
内山 俊郎 北海道情報大学, 経営情報学部, 教授 (80708644)
|
Co-Investigator(Kenkyū-buntansha) |
甫喜本 司 北海道情報大学, 情報メディア学部, 教授 (00241373)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | トピックモデル / 解の多様性 / 多次元尺度法 |
Outline of Annual Research Achievements |
2019年度は、分析方法としてこれまでに検討してきた内容(解同士の類似度を正規化相互情報量NMIにより測り、それを内積として、関係性を分析・可視化する手法)の定式化、実験、結果のまとめを行い、論文誌へ投稿し、掲載に至った。この実験においては、前年度から用いてきた7種類の文書データを用い、初期値設定法も入れて4種類のアルゴリズムで解を求めている。そして、アルゴリズムの違いによって、解の傾向が異なることを明らかにしたことは、特に重要な知見であると考える。既存研究においては、アルゴリズムの違いによる解の目的関数の値(最適化の度合い)は、ほとんど変わらないとされてきた。今回の分析と可視化により、目的関数の値としては差が少なくても、解としては異なる傾向を示すことをはじめて示したことになる。解の傾向の差異を分析するにあたっては、ジニ係数などにも着目している。実際に、アルゴリズムにより解のジニ係数が異なる傾向が見られた。また、その傾向はデータ依存でもあり、特定のアルゴリズムが大きいあるいは小さいと決めつけられないことも確認できている。また、目的関数の値については、学習データとテストデータの両面から分析しており、過学習の問題などにも配慮して、研究と実験を進めた。発表題目「トピックモデルにおける典型的あるいは意外性のある解の探索法」においては、解に含まれる特徴同士の関係性を表すために、クラスタリングとクラスタラベル集合の類似度を用いる新たな分析方法を示している。この着想に至ったことも、2019年度の重要な成果と考える。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
前年度から検討してきた分析方法について、定式化、実験、結果のまとめを行い、論文誌へ投稿し、掲載に至った。分析手法の確立という面から考えた時、当初考えていた案について結果を出すことができたことから、予定通りの進捗状況にあると考えている。論文としてまとめる過程において、査読者からの貴重なアドバイスを頂き、さらなる検討が必要であり、また可能であることも見えてきた。今後の進め方についての見通しがあることからも、順調に進展していると判断しているところである。
|
Strategy for Future Research Activity |
2019年度における論文は、ある時点におけるデータの分析方法に関する。今後は、時系列データの分析方法について、より本格的に検討する予定である。時系列データの分析については、一つの考え方を2019年度の研究会で示しており、頂いたアドバイスを参考にしながら、検討を進めたい。なお、時系列では無い場合においても、論文誌の査読者から貴重なアドバイスを頂いており、研究を進める考えである。すなわち、解の特性を分析するにあたり、解に含まれる特徴の分布に着目した検討を行う予定である。
|
Causes of Carryover |
実験を効率的に進めるために、もう一台ワークステーションを用意する予定であった。この一台は、さらなる研究を進める上で使用するもので、実験の内容によってメモリや計算能力が変わってくる。選定に必要な情報が揃わなかったため、今年度の購入を見送った。また、国際会議での発表に使うことを予定していたが、国内論文誌への投稿に時間を取られて、機会を逃した。これらの理由により、差分が生じている。国際会議については、コロナウイルスの終息を待たなくてはならないが、検討している。また、ワークステーションについても、今検討中の内容に基づいて、購入する考えである。
|