研究課題/領域番号 |
17K02129
|
研究機関 | 東海大学 |
研究代表者 |
星野 祐子 東海大学, 情報通信学部, 講師 (80435271)
|
研究分担者 |
山田 光穗 東海大学, 情報通信学部, 教授 (60366086)
石井 英里子 鹿児島県立短期大学, 文学科英語英文学専攻, 准教授 (80580878)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
キーワード | SNS / Webページ / 観光地 / 地域活性 / トピック抽出 / Twitter / 形態素解析 / 位置情報 |
研究実績の概要 |
本研究は3 年で実施する計画であり、1年目である平成29年度は研究を発展させ、迅速に進めるための基礎的な研究を中心に行った。 具体的には、Twitter で発信された情報からツイート本文などのサンプル(全体の1%程度)の抽出を行う。次にツイート本文を解析し、その時点における話題を抽出する。話題の抽出方法はTwitterのツイート本文を形態素解析し、タームに分解する。そしてタームの頻出度(TF)を求め、出現頻度の高い名詞句を中心としたターム群から、Twitter上に流れている話題を求める。このとき、システムでは形態素解析を行い、各タームの出現頻度と同時に出現する確率の高いターム群、特定分野(ある観光地や野球のようなスポーツなど)に関連度の高いターム群を求め、Twitter上に存在するいくつかの話題をLDA法で抽出する。また、手法ではドキュメント群から何個の話題を抽出するのか、その話題数を指定する必要がある。今回の研究では、抽出された話題の類似度をお互いに比較し、その値が最小となる話題数を設定した。さらに、抽出時間短縮のため、ネット独自に使われる記号(例:笑を意味する「ww」など)を事前に取り除く処理、ネットスラングや最近誕生した新語の登録、特に話題を抽出したい分野に関する単語10000件程度の辞書登録処理も加えてのトピック抽出を行った。 サーバ機設置予定大学でのサーバPC購入・設置・設定依頼等の処理に若干の遅れが出ているため、日本語Webページと英語Webページの内容差異の調査等に若干の遅れがでているものの、全体としてはおおむね順調に進んでいるものと考えている。 ここまでの成果と今後の課題、計画についてフィンランドで行われたICTR2018にて報告した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
今年度の予定であった、LDA法を用いた潜在的トピック抽出を応用し、特定分野(ある観光地、あるスポーツなど)に関する話題を上位トピックにあげる手法について、形態素解析時に使用する辞書とプログラムを作成し、抽出検証を行った。初めは特定分野に関する単語を中心とした辞書を元々あったプログラムに組み込んで、トピック抽出を行なった。さらに、このトピック抽出で得られたターム群に含まれる単語に対して、次のトピック抽出時に重みを与える処理を繰り返し、抽出順位にどのような変化があるのか検証を行い、タームに与えるべき重み値の算出を行った。 また、トピック抽出時に指定する抽出トピック数の決定方法についても検証を行い、日本語1日分のツイートストリーミングデータであれば、おおよそ80という値を求めることができた。 当初計画には入っていなかったが、抽出したトピックについて、実際に発信したユーザが存在するのか、何人程度いるのかを検証するため、抽出したトピックから元の発言者(ある話題について発信したユーザ)を探す手法の提案を行い、プログラムの作成と検証を行った。特定には、抽出されたトピック群から任意の1トピックを選び、このトピックとツイート群に含まれるツイートの類似度を使用した。また、抽出トピックは単語群で構成されているため、ツイート群も形態素解析を行い、単語群の形に変換した。このように抽出されたある話題に興味を持っているユーザを特定することは、このユーザに対して、関連する情報を提供することにも使用できると考える。 サーバ機の設置予定大学での遅れているため、プログラムをサーバ機に入れての動作確認はできていないが、開発に用いているPC上では動作しているので、大きな問題はないと考えている。
|
今後の研究の推進方策 |
サーバマシン購入が済み、設置の準備が整ったので、ネットワーク等の設定を行い、そちらでも動作確認できる環境を構築する。並行して、モデル地域から発信されたTwitter情報を中心に日本語ツイート、英語ツイート別に収集し、抽出トピック数の決定とトピック抽出を行う。ある日のデータ群から抽出されたトピックに含まれるターム群を翌日のトピック抽出時のデータ群に組み込むことで、日々の流行の変遷を追うことができるのか、検証も行う。この作業のためには大容量の記憶装置とドキュメント指向型のデータベースが必要となるため、新たなハードディスクまたはシリコンディスクの設置とデータベース構築を予定している。 これらの作業を通して抽出されたトピックについて、日本人観光客と外国人観光客(英語での発信者)の間の違いを異文化の観点からの比較も行う。また、この結果を利用して、日本人と外国人に対して提供するべき情報の取捨選択を自動的に行う手法について検討を行い、プログラムの作成をする。 さらに、提供すべき情報の候補の自動抽出が可能となり次第、提供方法、および提供のタイミング(日次、週次など)について、実験モデル地域を選定し、検討を行う。
|
次年度使用額が生じた理由 |
サーバマシンを設置が設置場所となっている大学の都合により遅れているため、2017年度は購入のみでとなっており、設置・設定に関わる費用(ネットワーク関連消耗品購入や東京~鹿児島間出張費など)が支出されていないため。 2018年度にサーバマシンの設定に関わる費用、および、タブレット端末、通信端末の購入費として、使用予定である。
|