研究課題/領域番号 |
15K00309
|
研究機関 | 徳島大学 |
研究代表者 |
吉田 稔 徳島大学, 大学院理工学研究部, 講師 (40361688)
|
研究期間 (年度) |
2015-10-21 – 2018-03-31
|
キーワード | 用語抽出 / コミュニティ抽出 |
研究実績の概要 |
本年度は、用語抽出アルゴリズムの改良を主に行った。用語抽出の中間計算結果の保存手法を改良することで、厳密かつ省メモリで計算を行えるようになったほか、処理も高速化された。これにより、中間結果を用いて動的に用語候補スコアを更新することが可能になり、結果として、すでに抽出された用語をその後回避することで、より精度の高い用語リストを得られるようになった。また、この応用として、クエリ文字列に関連する用語を動的に取得する、高速な関連文字列抽出手法を実装し、実際に妥当な文字列が得られることを確認した。 また、コーパス収集について、これまでは、事前に設定した特定のユーザーの発言を収集する方針であったが、新たに、ランダムサンプリングで、プロフィール文字列と発言文字列のペアを取得する方針での収集を行った。収集したコーパスのサーベイを行った結果、プロフィール文字列が、ユーザーの特性を取得するのに極めて有効であるという見通しを得た。また、プロフィール文字列における特定のキーワードの有無を区別することで、プロフィールの違いによって異なる抽出文字列を得ることができ、これが、対義語等の取得に有用であるという感触を得た。 また、数値文字列の表現に関しては、有効数字の概念を用いた抽象化手法と、数値範囲を設定し量子化する手法の両者について開発を行い、それぞれの特性を比較した結果、用途に応じた使い分けが必要であるという知見を得た。 その他、近年研究が盛んな単語分散表現について、文字列を対象とした分散表現獲得の可能性についても検討を行い、文字列対象でもある程度妥当な分散表現を得ることが可能であるという知見が得られた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
アルゴリズムの高速化・省メモリ化を行ったことで、ある程度大きなコーパスを対象に手法が適用できるようになり、また、新たなコーパス取得方針で、網羅性の高いテキスト集合が得られるようになったことで、ユーザーの特性文字列と、発言文字列の対応をマイニングするための環境が整ったため、目標のシステム実現への到達が見えてきている。 数値文字列・対義語の取得に関しても、手法の見通しが立ったことで、これを実装に組み込むことで、成果が得られる可能性が高い。
|
今後の研究の推進方策 |
プロフィール文字列と発言文字列のペアが今後の研究開発に有効であるという感触を得たため、今後はこのコーパスを対象に、ユーザーの特性と発言の特性を関連付ける研究を行う。具体的には、当初予定の通り、二部グラフを用いた手法により、コミュニティと用語の同時発見手法を検討する予定である。 また、二部グラフ構造は、単語分散表現抽出と類似の構造を持つため、このコーパスを分散表現獲得へ応用する可能性についても検討する。 また、数値文字列の取扱い手法・対義語発見手法を実装することで、文字列どうしの関連を取得する研究も行う。 これら手法の精度評価等を行うとともに、全体のシステムとして統合する。
|
次年度使用額が生じた理由 |
当初計画と比べ、コーパス収集方法と、Deep Learningを用いた手法の進展という点で環境が変化している。新しい手法により収集されたコーパスでは、プロフィール文字列と本文文字列との対応付けにより有用な知見が得られると思われるため、系列信号を対象とした再帰型ニューラルネットワーク手法を検討する必要がある。このために必要なマシンのスペックを、より最新の環境で検討する必要があることから、次年度に導入を行うほうが適切な導入が可能になると判断した。
|
次年度使用額の使用計画 |
市販のサーバの最新動向を反映したメモリ容量およびGPUのスペックを検討し、サーバの導入を行う。旅費等については、研究成果の発表等、当初計画の通り進める。
|