研究概要 |
本研究は、「意味的な関連性によるのではない単語の共起関係であっても,統計学的に有意な頻度で生じているならば情報収集の手掛かりとして有用性を持つ」という仮定に基づいている。この、統計学的に有意な頻度で生じる共起を、「統計学的ライム」と呼ぶ。そして、ベイズ的な確率モデルを使い、統計学的に有意な頻度で生じている単語の共起関係を抽出することを目指した。最終的に、論文末尾や研究者のWebサイトに現れる書誌情報を、著者名・論文タイトル・学術雑誌名・発表年など異なる書誌フィールドへと教師無し学習によって自動分割する、新しいLDA(潜在的ディリクレ配分法)タイプのトピック抽出法を提案できた。また、提案のモデルの分割精度を半教師付き学習により改善することに成功した。
|