2017 Fiscal Year Annual Research Report
A study on simultaneous extraction of SNS communities and terms
Project/Area Number |
15K00309
|
Research Institution | The University of Tokushima |
Principal Investigator |
吉田 稔 徳島大学, 大学院社会産業理工学研究部(理工学域), 講師 (40361688)
|
Project Period (FY) |
2015-10-21 – 2018-03-31
|
Keywords | 用語抽出 / コミュニティ抽出 / 単語分散表現 |
Outline of Annual Research Achievements |
最終年度は、コミュニティ抽出、用語抽出の研究をさらに発展させるとともに、抽出結果を俯瞰するためのシステムの実装を行った。 コミュニティ抽出については、前年度に検討した、発言者のプロフィール情報を利用した手法を発展させ、コミュニティを「視点」として捉え、発言者の視点を分類する手法を提案した。 具体的には、単語分散表現の獲得において、プロフィール欄に記述された単語と、本文中に記述された単語を別々のベクトルで表現することで、より視点抽出に効果的なベクトルを獲得するための手法を開発した。また、異なる視点からの発言どうしを同一のクラスタにまとめ、プロフィール中の単語クラスタ及び発言クラスタを効率的に一覧するためのシステムを実装した。実際に、いくつかのクエリにおいて、複数の視点が得られることを確認し、提案手法の精度を測定した。また、具体的なコミュニティ抽出の一例として、音楽アーティストのファンを対象に、プロフィール中に共起するアーティスト名を取得することでアーティスト推薦を行う手法についても研究を行った。その他、ジオタグの付与された発言を対象に、発言者の所在地をコミュニティの一種と考え、発言者の位置に特徴的な文字列の発見と、特徴的な文字列を得られる地理的な境界を交互に取得する手法について研究を行った。 用語抽出においては、数値文字列の表現に関し、数値文字列を分散表現により表現する手法の研究を行った。桁数と有効数字を用いた文字列化の手法と、数値を連続値として捉え、動的に文脈ベクトルを取得できる手法の両者を検討し、それぞれの手法である程度妥当な文脈が取得できることを確認した。その他、顔文字の分類に関する研究及び、動画投稿サイトのコメントに使われる用語に関する研究も行った。また、用語抽出に関して、単語分散表現を利用した類義語検索において、従来の検索を高速化するための手法についても研究を行った。
|
Research Products
(6 results)