• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2015 Fiscal Year Research-status Report

コミュニティと用語の同時獲得手法に関する研究

Research Project

Project/Area Number 15K00309
Research InstitutionThe University of Tokushima

Principal Investigator

吉田 稔  徳島大学, ソシオテクノサイエンス研究部, 講師 (40361688)

Project Period (FY) 2015-10-21 – 2018-03-31
Keywords用語抽出
Outline of Annual Research Achievements

本年度は、TwitterのAPIを用いたコーパス取得について、指定したアカウントから発言ログを取得するシステムを開発し、実際にいくつかのアカウントでログを取得できることを確認した。また、各アカウントのログから、用語の抽出を行うためのアルゴリズムを開発し、用語抽出を行った。実際には、取得できるログは、一アカウント数百キロバイト程度であるため、それほど多くの用語を抽出できるわけではないことがわかった。このため、抽出した用語を利用して、類似ユーザーを発見し、ログの統合を行うことで、抽出できる用語の拡大を行うことが必要であることがわかった。
また、抽出された文字列を用いてログを検索し、関連するツイート(発言)からなる部分集合を形成し、そこからあらためて用語抽出を行うことで、各用語の関連語を取得するためのアルゴリズムを開発した。実データに適用したところ、ある程度の関連語を取得できるほか、元の用語が不完全な文字列だった場合にこれを補完する効果もあることが確認できた。
そのほか、Twitterデータのマイニングに対する文字列抽出とは別の方向性として、トピックモデルによる俗語の分析、アカウントの性格推定、特定分野を対象としたツイート(発言)のカテゴリ分類に関する研究も行った。また、テキスト中の数値表現の取り扱いに関して、その意味付けを行うための知識を、Wikipedia上の表形式を利用して学習するアルゴリズムを開発した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

用語抽出に関しては、特に問題なく、想定通りに進んでいると考える。関連語抽出に関しては、類義語抽出アルゴリズムに頼らない新たな手法を発見したことで、少量のテキスト集合からでも関連語を発見できる目途が立ち、想定以上の成果が得られたと考えている。
コミュニティ発見についてはまだ手付かずであるが、類似するユーザーから抽出された用語は少数ながら共通の要素を持っていることが確認できたため、当初の予定通り、二部グラフ等を用いたコミュニティの発見に応用できるものと考えられる。

Strategy for Future Research Activity

用語抽出に関してはある程度の成果が得られたため、今後はこれを利用したコミュニティ発見の研究を進展させていく。また、新たにわかった問題点として、twitterからの用語抽出では、他ユーザーアカウントの文字列が特徴的な文字列として抽出される傾向があり、この扱いを検討する必要がある。また、現在扱っているデータ量は少量であるが、これを大規模データに適用するための準備として、用語抽出アルゴリズムの高速化、および使用メモリの削減をを行う予定である。

Causes of Carryover

研究開始後の国内外の研究動向として、近年、特に、いわゆるDeep Learningを用いた手法による分散表現の学習が、スタンダードな手法として確立しつつあり、新たに導入する計算資源にも、この手法を実現可能なスペックが必要であるという懸念が生じている。このため、単純なメモリ容量だけではなく、CPUのコア数やGPUの利用可能数など、新たな側面も考慮してマシンスペックを検討する必要が生じていると判断した。研究分野の最新動向をより適切に反映させるため、次年度以降に導入を行ったほうが有利であると判断した。

Expenditure Plan for Carryover Budget

スペックの再検討を行ったあと、計算サーバーの導入を行う予定である。旅費等については当初計画の通り進める。

  • Research Products

    (2 results)

All 2016

All Presentation (2 results)

  • [Presentation] Twitterユーザの属性別感情推定の検討2016

    • Author(s)
      岩朝 史展, 松本 和幸, 吉田 稔, 北 研二
    • Organizer
      言語処理学会第22回年次大会
    • Place of Presentation
      東北大学(宮城・仙台)
    • Year and Date
      2016-03-08
  • [Presentation] トピック変動の分析による俗語の特徴抽出2016

    • Author(s)
      松岡 雅也, 松本 和幸, 吉田 稔, 北 研二
    • Organizer
      情報処理学会第225回自然言語処理研究会
    • Place of Presentation
      住友不動産渋谷ファーストタワー(東京・渋谷)
    • Year and Date
      2016-01-22

URL: 

Published: 2017-01-06  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi