研究課題/領域番号 |
24500120
|
研究種目 |
基盤研究(C)
|
研究機関 | 鹿児島大学 |
研究代表者 |
福元 伸也 鹿児島大学, 理工学研究科, 助教 (40244264)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
キーワード | 情報検索 |
研究概要 |
本研究では、ユーザの潜在的な検索要求に対応することのできる意味的な検索が可能な検索システムの開発を目指している。平成24年度の研究実施計画では、次の項目に主体をおき研究を進めた。1.Webデータの解析、2.言葉の意味的要素の検討、3.クラスタリング手法についての検討、4.概念辞書の構築である。 1.Webデータの解析については、Webデータ収集のためのクローラーソフトにApache Nutchを使用し、ニュース記事を扱っているサイトから文書データの収集を行った。集めた文書データの構文解析と形態素解析を行い、学習器に与えるための単語データを揃えた。 2.言葉の意味的要素の検討については、Webページと単語との関連から単語間関連度を定義し、ブログの文書データを利用して、関連度と単語同士の関連性について検証した。その結果、単語の出現率と単語間関連度の間に相関があることがわかった。 3.クラスタリングの検討については、学習器に並列分散処理でビッグデータにも対応可能な学習器を用い、クラスタリング手法には、オンライン版のサポートベクターマシンとも言えるPassive Aggressive (PA)法を用いることとし、これらを用いてニュース記事に含まれる単語のカテゴリ分類を試みた。その結果、80%を超える比較的高い識別率が得られ、PA法の有効性を示すことができた。 4.概念辞書の構築については、文書データに学習器を用いてクラスタリングしたり、単語間の関連度を求めたりすることまでにとどまり、辞書の構築までは至っておらず、次年度の課題である。 また、次年度以降に予定していたユーザインターフェイスの開発に関し、タブレット端末上でのタッチインターフェイスの開発等を一部行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
研究目標では、次のことを目標に掲げた。1.連想記憶についての検討、および言葉の意味的要素の作成、2.クラスタリング手法についての検討、および概念辞書の構築、3.時間情報に着目した文書データにおける時系列マイニング、である。 1において、連想記憶として、形態学的連想記憶モデルで、連続値を用いて一般化した場合の想起率について調べた。この形態学的連想記憶モデルの適用に関しては、さらなる検証が必要である。また、言葉の意味的要素の作成について、ブログデータを用いて、HTML構文解析、および形態素解析を行い、Webページと単語との関連を利用して、単語間関連度を定義した。その結果、多くのページで出現する単語に関しては、定義した単語間関連度と単語どうしの関連性の相関が高かったが、出現数の少ない単語に関しては、関連度が小さく算出されることがわかった。 2において、言葉がどのような概念を持ち、それぞれが関連した言葉なのかどうかを知ることが重要になる。クラスタリング手法では、Gmailの学習にも利用されているPassive Aggressive (PA)法を用いて、カテゴリ分類を試みた。その結果、80%を超える比較的高い識別率が得られた。概念辞書の構築については、部分的な取り組みは行っているが、全体的な辞書構築までは至っていない。 3に関しては、データ収集のみで、時間情報をどのように埋め込むかについては、次年度の検討課題である。 以上のように、達成している項目もあれば、そうでない項目もあり、全体的には、当初の目的に対して少し遅れ気味である。
|
今後の研究の推進方策 |
概念辞書構築のための重要な要素であるクラスタリングに関し、今年度は、Passive Aggressive (PA)法を用いた実験を行ったが、次年度においては、非線形分類が可能なクラスタリング手法についても検討する。 また、今年度、あまり進捗がなかった時間情報の適用に関しては、時間情報を伴うテキストデータをうまく分析するため、ページの中から特徴的なイベントを抽出し、そのイベントの時系列的なパターンを見出すことによって、単語データの時間情報を明らかにしていく。 研究で扱うデータは、Webデータを対象としているため、膨大な量にのぼり、その大量の文書データの解析や特徴ベクトルからのクラスタリングには、非常に多くの処理時間を必要とする。そこで、処理時間の短縮を図るため、計算機のクラスター化により、並列分散処理の実現を目指す。具体的には、Windows HPC Server (HPC: High Performance Computing)を用いてクラスターシステムを構築する。 言葉の持つ概念をユーザに伝えるのに、従来のテキストベースの表示だけでは限界がある。研究では、言葉の持つ概念を3次元的に表現することが出来ないかどうかについて検討する。また、入力インターフェイスについても、モバイル可能なスマートフォンやタブレット端末でのタッチインターフェイスなど新しいインターフェイスについて検討を行う。
|
次年度の研究費の使用計画 |
当初、今年度の購入計画において、並列処理のために、計算機4台を購入する予定であったが、今年度は、並列処理システムの構築までは至らず、開発用の計算機3台の購入にとどまり、そのために未使用金391,078円が生じた。次年度、新たに計算機1台を購入し、4台の計算機を用いて並列処理のためのクラスターシステムを構築する。 これ以外の次年度の使用計画として、膨大な量にのぼるWebデータの保存・管理のためのストレージデバイスの購入、プログラム開発のための関連図書の購入、また、研究成果発表のための国内・外国旅費、および研究補助の謝金などを予定している。
|