2015 Fiscal Year Research-status Report
Project/Area Number |
15K00309
|
Research Institution | The University of Tokushima |
Principal Investigator |
吉田 稔 徳島大学, ソシオテクノサイエンス研究部, 講師 (40361688)
|
Project Period (FY) |
2015-10-21 – 2018-03-31
|
Keywords | 用語抽出 |
Outline of Annual Research Achievements |
本年度は、TwitterのAPIを用いたコーパス取得について、指定したアカウントから発言ログを取得するシステムを開発し、実際にいくつかのアカウントでログを取得できることを確認した。また、各アカウントのログから、用語の抽出を行うためのアルゴリズムを開発し、用語抽出を行った。実際には、取得できるログは、一アカウント数百キロバイト程度であるため、それほど多くの用語を抽出できるわけではないことがわかった。このため、抽出した用語を利用して、類似ユーザーを発見し、ログの統合を行うことで、抽出できる用語の拡大を行うことが必要であることがわかった。 また、抽出された文字列を用いてログを検索し、関連するツイート(発言)からなる部分集合を形成し、そこからあらためて用語抽出を行うことで、各用語の関連語を取得するためのアルゴリズムを開発した。実データに適用したところ、ある程度の関連語を取得できるほか、元の用語が不完全な文字列だった場合にこれを補完する効果もあることが確認できた。 そのほか、Twitterデータのマイニングに対する文字列抽出とは別の方向性として、トピックモデルによる俗語の分析、アカウントの性格推定、特定分野を対象としたツイート(発言)のカテゴリ分類に関する研究も行った。また、テキスト中の数値表現の取り扱いに関して、その意味付けを行うための知識を、Wikipedia上の表形式を利用して学習するアルゴリズムを開発した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
用語抽出に関しては、特に問題なく、想定通りに進んでいると考える。関連語抽出に関しては、類義語抽出アルゴリズムに頼らない新たな手法を発見したことで、少量のテキスト集合からでも関連語を発見できる目途が立ち、想定以上の成果が得られたと考えている。 コミュニティ発見についてはまだ手付かずであるが、類似するユーザーから抽出された用語は少数ながら共通の要素を持っていることが確認できたため、当初の予定通り、二部グラフ等を用いたコミュニティの発見に応用できるものと考えられる。
|
Strategy for Future Research Activity |
用語抽出に関してはある程度の成果が得られたため、今後はこれを利用したコミュニティ発見の研究を進展させていく。また、新たにわかった問題点として、twitterからの用語抽出では、他ユーザーアカウントの文字列が特徴的な文字列として抽出される傾向があり、この扱いを検討する必要がある。また、現在扱っているデータ量は少量であるが、これを大規模データに適用するための準備として、用語抽出アルゴリズムの高速化、および使用メモリの削減をを行う予定である。
|
Causes of Carryover |
研究開始後の国内外の研究動向として、近年、特に、いわゆるDeep Learningを用いた手法による分散表現の学習が、スタンダードな手法として確立しつつあり、新たに導入する計算資源にも、この手法を実現可能なスペックが必要であるという懸念が生じている。このため、単純なメモリ容量だけではなく、CPUのコア数やGPUの利用可能数など、新たな側面も考慮してマシンスペックを検討する必要が生じていると判断した。研究分野の最新動向をより適切に反映させるため、次年度以降に導入を行ったほうが有利であると判断した。
|
Expenditure Plan for Carryover Budget |
スペックの再検討を行ったあと、計算サーバーの導入を行う予定である。旅費等については当初計画の通り進める。
|
Research Products
(2 results)