2014 Fiscal Year Research-status Report
マイクロブログからのユーザ適応型実世界観測情報検索システムの構築
Project/Area Number |
26330137
|
Research Institution | Osaka University |
Principal Investigator |
新田 直子 大阪大学, 工学(系)研究科(研究院), 講師 (00379132)
|
Project Period (FY) |
2014-04-01 – 2018-03-31
|
Keywords | マイクロブログ / 実世界センシング / ソーシャルセンサ / ユーザ適応 / 位置推定 / テキスト検索 |
Outline of Annual Research Achievements |
本研究は、Twitterに代表されるマイクロブログには、世界中の人間のリアルタイムな実世界観測情報が投稿されることに着目し、個々のユーザの現在地及び関心に応じて、マイクロブログから適切な実世界観測情報を収集するシステムの構築を目指す。今年度は以下の課題に取り組んだ。 ・位置情報なし投稿の位置推定 マイクロブログには投稿位置の緯度・経度をジオタグとして付与することができるが、実際にはジオタグが付与された投稿は全体の1%程度に過ぎない。そこで、場所、名産品、イベント、方言など位置を示す単語であるローカル語とそれぞれのローカル語が示す位置を1%程度のジオタグ付き投稿から学習し、ジオタグの付与されていないローカル語を含む投稿に対し、投稿位置を推定する手法を考案した。 ・ユーザの関心に応じた実世界観測情報の検索 ユーザの関心はクエリとして与えられる単語で表されるものとする。クエリを含む投稿は必ずしもユーザの関心に合致した実世界観測情報とは限らず、ユーザの関心に合致した実世界観測情報は必ずクエリを含むとは限らない。本研究では、各投稿がユーザの関心に合致した実世界観測情報であるか否かは、各投稿中のクエリ以外の単語のクエリとの関連度に依存すると考え、予めマイクロブログへの過去の投稿に使用された単語対の関連度を、その単語対の共起頻度に基づき算出する手法を考案した。さらに、クエリが与えられた際、算出した関連度を用いてクエリに対する関連語、非関連語を決定し、これらに基づき各投稿のクエリに対する関連スコアを算出する手法を考案した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
・位置情報なし投稿の位置推定 140文字以内という短いテキストに含まれる単語に基づき位置を推定するため、位置を示すローカル語をできるだけ多く学習する必要がある。そこで、頻出するが比較的局所性が低くなるもの、複数の位置を示すもの、局所性は高いが頻出はしないものなど、信頼度がある程度低いローカル語も抽出する手法を提案した。実際に10日間に投稿された約2000万件の投稿からローカル語を学習し、10日目の投稿に対し位置推定を行った結果、信頼度が高い約5500個のローカル語を用いた場合、4%の投稿に対し50%の精度、信頼度がある程度低いものも含めた約30000個のローカル語を用いた場合、10%の投稿に対し35%の精度で位置推定でき、これ以上ローカル語を増やすと急激に誤推定が増え、精度が悪化することが分かった。 ・ユーザの関心に応じた実世界観測情報の検索 関連度が高いと考えられる単語対の中には、「遅延」と「急病人」のように共起する投稿が比較的頻繁に発生しやすいものと、「急病人」と「板橋」のように共起する投稿が突発的に発生するものが存在すると考えられるため、長期的、短期的な共起関係に基づき単語対の関連度を算出する方法を考案した。また、特定のクエリが与えられたとき、算出した関連度を用いてクエリの関連語、非関連語を決定し、関連語が多く非関連語が少ない投稿に対して高くなるよう、クエリに対する関連スコアを算出する手法を考案した。約2000万件の投稿から全単語対の関連度を算出した結果、「遅延」というクエリに対し、電車の遅延や人身事故の観測情報、「渋滞」というクエリに対し、渋滞や車の追突事故の観測情報など、クエリに応じた実世界観測情報が抽出できることを確認した。 以上のように、今年度の二つの課題に対し、提案するアイデアの有効性が確認できており、本研究は順調に進展していると考える。
|
Strategy for Future Research Activity |
次年度は今年度の研究成果を踏まえ、以下の課題に取り組む。 ・ローカル語の更新 ローカル語には、イベントを表す単語など、示す場所が動的に変化するものが含まれる。このような動的変化に対応するため、短期間におけるジオタグ付き投稿からの学習を繰り返し、ローカル語及びローカル語の示す位置を更新する手法を考案する。また、このような更新の有無が位置推定に与える影響について実験的に検証する。 ・関連度の更新及び実世界観測情報検索手法の改良 単語対の関連度も、時節やイベントの発生に応じて変化すると考えられる。よって、短期間における投稿からの学習を繰り返し、単語対の関連度を更新する手法を考案する。また、実世界観測情報抽出における、算出した関連度を用いた投稿のクエリに対する関連スコアの算出方法について、より汎用性の高い手法を検討する。単語対の関連度の更新の有無、関連スコアの算出方法が実世界観測情報抽出に与える影響について実験的に検証する。
|
Causes of Carryover |
今年度予定しているローカル語、関連度の更新アルゴリズムの性能評価を行う際、更なる大規模データの処理が必要となるため、今年度購入を予定していたアルゴリズムの実装・性能評価用のPC2台のうち1台の購入を次年度に延期した。
|
Expenditure Plan for Carryover Budget |
今年度予定していたPC1台の購入を追加する以外、翌年度分として請求した助成金の使用計画について変更はない。
|