2012 Fiscal Year Research-status Report
意味理解に基づくマイクロブログのチャット的メッセージの分析・構造化に関する研究
Project/Area Number |
24500296
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | Okayama Prefectural University |
Principal Investigator |
菊井 玄一郎 岡山県立大学, 情報工学部, 教授 (80395011)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | ウエブマイニング / マイクロブログ / テキスト解析 / 自然言語理解 |
Research Abstract |
本年度は,まず,前提となるマイクロブログコーパスの整備を行ったあと(下記1),固有表現抽出,および,マイクロブログにおけるトレンド情報の抽出に取り組み,以下の2,3に示す成果を得た. 1.コーパス整備:twitter社のマイクロブログ・サービスに投稿される全記事から月間約500万記事,年間で6000万記事をランダムに収集した.さらに,そこから1万記事をランダムに選んだものを固有表現抽出等の言語解析研究用の基本コーパスとした. 2.固有表現抽出:まず,固有表現の分類体系の検討を行った.具体的には固有表現の標準的な大分類の体系であるIREX8分類に対して,本研究において有用と思われる細分類(計48分類)を追加した.次に,1で整備した基本コーパスからランダムに1万文を選んで,固有表現抽出の正解を人手で作成した.3点目として,このコーパスを用いて既存の固有表現抽出手法(条件付き確率場による手法)の性能を評価し,マイクロブログに適用した場合には精度が大きく低下することを確認した.最後に,改良案としてwikipediaから抽出した語彙に関する素性を追加して評価したところ,ある程度効果があるものの顕著とは言えないことがわかった(以上,岡山県立大学大学院修士論文). 3.マイクロブログを利用したトレンド理解:検索エンジンに入力される検索語のうち,入力頻度が急上昇した語である「検索急上昇ワード」について,この急上昇がなぜ生じたのかを示す文(記事)をマイクロブログからクロスメディア的に取り出すことを試みた.具体的には検索急上昇が起こった日時付近においてマイクロブログの書き込みのバーストを特定し,そこから文書要約における重要文抽出の手法を適用することによって78%の精度で急上昇の要因を示す文を提示することができた(人工知能学会2013年全国大会で発表予定).
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当年度の実施計画についてはコーパス整備の一部を除いて予定通り進捗したほか,平成26年度予定の「D:マイクロブログの内容分析」については前倒しで一部実施し成果を得た.以下,詳細について述べる. 1.当年度実施計画の進捗状況:「分析コーパスの整備」については対象となるマイクロブログコーパスを継続的に自動収集し月間約500万テキスト,年間で6000万テキストのコーパスを作成した.但し,「チャット的な記事」の選別については試みたものの未評価でありこの部分が若干の遅れと言える. 「固有表現抽出」については,まず,固有表現の分類体系の整備を行い,合計48分類の細分類を作成した.次に,固有表現抽出技術の開発・評価のために前記のマイクロブログコーパスからランダムに1万文を選んで,これに含まれる各文に対して固有表現抽出の正解を人手で付与した.さらに,このデータを用いて,既存の固有表現抽出技術の評価を行うとともに,wikipedia辞書を素性として追加する方法を試み若干ながら精度が向上することを確認した. 2.そのほかの実施項目:計画の前倒し実施項目として,検索エンジンに入力される検索語のうち,頻度が急上昇した「検索急上昇ワード」について,その要因を示す文をマイクロブログから自動抽出する手法を提案し77%の精度を達成した(口頭発表の予定). 以上,1で若干遅れが生じたものの,2の前倒し成果が得られたことからおおむね順調とした.
|
Strategy for Future Research Activity |
次年度以降については当初計画通り研究を推進する. ここで,固有表現抽出の精度向上については本年度研究で得られた知見に基づき,wikipedia等外部DBからより網羅的に名称文字列を収集して活用するとともに,マイクロブログに頻出するニックネームなどの略語的な固有表現の抽出手法の検討を行う. なお,次年度は研究の加速を狙って当研究室の大学院生に手法の検討と実験,学会発表等の一部を分担させる予定である.具体的な担当は次の通りである(B,C,Dは計画における項目記号). 固有表現抽出の検討(B)については修士課程2年生の渡辺謙一,係り受け解析の検討(C)については同2年生の門内健太,メディア(間)の内容分析(D)については同1年生の難波悟史,および,藤川哲志にそれぞれ担当させる予定である.
|
Expenditure Plans for the Next FY Research Funding |
次年度使用額約600千円のうち,200千円を学会発表のための旅費,会議参加費にあて,残りの400千円を固有表現のタグ付け作業(5000記事分)に充てる予定である. 前者の旅費については想定している国内大会の開催地が遠方になったため当初計画より交通費ががかかることを考慮している.後者の固有表現のタグ付けについては今年度タグ付け作業文の実験結果からさらなるデータが必要であると判断したことによる.
|