2013 Fiscal Year Research-status Report
概念辞書によるユーザの潜在的検索要求のための情報検索システムの開発
Project/Area Number |
24500120
|
Research Institution | Kagoshima University |
Principal Investigator |
福元 伸也 鹿児島大学, 理工学研究科, 助教 (40244264)
|
Keywords | 情報検索 |
Research Abstract |
本研究では、ユーザの潜在的な検索要求に対応することのできる意味的な検索が可能な検索システムの開発を目指しており、次の項目を主体におき研究を進めた。1.文書データの解析、2.言葉の意味的要素の検討、3.クラスタリング手法についての検討、4.並列分散処理システムの構築、5.ユーザインターフェイスの開発である。 文書データの解析において、収集した文書データに対し、Igoという形態素解析器を用いて、文章を単語に分解した。分解された単語から名詞の単語を抽出した。言葉の意味的要素を検討するため、文書中に現れた名詞の単語の共起関係に注目し、共起行列を作成した。従来手法では、現れた単語の共起行列を作成していたが、言葉の意味的要素を考慮するため、シソーラスを利用することにより、単語の意味を考慮した共起行列を作成した。 クラスタリング手法の検討では、共起行列を利用した文書クラスタリングにおいて、ランダムフォレストを利用する方法を提案した。その結果、文書データのカテゴリ分類において、高い識別率を得ることができた。 また、並列分散処理システムの構築では、処理の高速化や大容量のメモリを扱うことができるようにするために、Windows HPCを用いたクラスタシステムを構築した。管理ノードには、Windows HPC Server 2008を利用し、計算ノードにはWindows 7をインストールした計算機を使用した。サンプルデータを用いた実験では、処理の高速化を確認した。 ユーザインターフェイスでは、検索結果における単語間の関係を表現するのに、テキストベースの表示では限界がある。現在、タッチインターフェイスを利用したインタラクティブインターフェイスの開発を行っている段階である。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
今年度の研究推進の方策として、次のことを掲げていた。1.クラスタリング手法に関する検討、2.時間情報に着目した文書データの時系列パターンの抽出、3.並列分散処理システムの構築、4.新しいユーザインターフェイスの検討である。 1のクラスタリング手法について、今年度は、共起行列で作成した学習データに対し、アンサンブル学習の1つで多数の決定木を用いるランダムフォレストによる方法を利用する方法を提案し実験を行った。実験では、文書データのカテゴリ分類に対して、高い識別率を得た。概念辞書の構築については、シソーラスを利用した共起行列の生成を提案しており、今後、この手法を発展させていく予定である。 2の時間情報に関しては、時間情報を伴うテキストデータをうまく分析するために、ページの中から特徴的なイベントの時系列パターンを見いだすことにより、時間情報を取り出す目標を掲げていたが、まだ特徴的なイベントの時系列パターン抽出まで至っていない。 3の並列分散処理システムについては、管理ノードと複数台の計算ノードからなるクラスタシステムをWindows HPCを用いて構築し、サンプルプログラムを動かし、処理の高速化やメモリ容量の問題の解決を図ったところであるが、本格的な並列分散処理プログラムによる実験は未だである。 4のインターフェイスについては、言葉の持つ概念を3次元的に表現できるインターフェイスの構築を目標に掲げ、インタラクティブインターフェイスの開発を行っている段階である。 以上のように進展はしているが、全体的には、当初の目標に対して、やや遅れ気味である。
|
Strategy for Future Research Activity |
特徴ベクトル生成のための共起行列の作成において、文章中に出現した単語のみの共起頻度を取るのではなく、シソーラスを用いて単語と単語に付随する意味属性との共起頻度を取り、共起行列を作成する方法を提案した。この手法をさらに検討し、さらなる特徴ベクトルの次元圧縮につなげる。 また、クラスタリングにおいては、ランダムフォレストを用いる方法で、比較的高い識別率を得ることができたが、ランダムフォレスト以外のアンサンブル学習であるバギングやブースティング手法を用いた場合についても分析する。 文書データの時間情報の利用に関しては、テキストデータの中から、特徴的なイベントを抽出し、そのイベントの時系列パターンから時間情報を利用していく。 並列処理では、構築したWindows HPCシステムを利用し、大規模なデータ処理を実現する。現在、その環境が整った段階であるので、これを利用した並列分散処理プログラムのコーディングおよび実験を進めていく。 インターフェイスの開発では、言葉の概念を表現するのに、従来のテキストベースの結果表示では限界がある。3次元データ表示をうまく利用し、言葉の持つ概念を表現できるインターフェイスを開発する。また、モバイル可能なタブレット端末などを利用したタッチインターフェイスなどについても検討する。次年度は、研究の遅れを取り戻すべく、研究分担者やプロジェクト研究員に加わってもらい、システム全体の完成を目指す。
|
Expenditure Plans for the Next FY Research Funding |
研究計画に遅れが生じており、ジャーナルへの研究発表が間に合わず、投稿料、別刷り印刷費などが使用されなかった。また、物品で購入を予定していた無停電電源装置を別途流用することが出来たため、未使用金が生じた。 次年度の使用計画として、遅れている研究を進展させるため、プロジェクト研究員を採用し、その人件費に使用する。また、膨大な量にのぼるWebデータの保存・管理のためのストレージデバイスの購入、研究成果発表のための国内・外国旅費および論文投稿料などを予定している。
|