2011 Fiscal Year Annual Research Report
階層型自己組織化マップの高速化によるウェブテキスト視覚化とその信頼性推定への応用
Project/Area Number |
11J01060
|
Research Institution | University of Tsukuba |
Principal Investigator |
豊田 哲也 筑波大学, 大学院・システム情報工学研究科, 特別研究員(DC2)
|
Keywords | 自己組織化マップ / 自然言語処理 / Wikipedia / 情報可視化 |
Research Abstract |
本研究において解決すべき点である,「1.SOMの高速化・大規模化の実現」,「2.上位概念マップの精度向上」,以上2点についての研究を進めた.まず,SOMの高速化については,テキストを入力ベクトルに変換する際に生じるベクトル次元の大多数の0要素を削減することで,各テキストの相関を向上させることを行った.また,学習領域を学習の初期段階から限定させた.これら提案手法により,一般的なSOMに比べて類似データが周辺に集まりやすくなり,さらに計算時間を1/100まで削減できていることから,提案手法が有効であることを実証した.次に,上位概念マップの精度向上に関しては,Wikipediaのカテゴリ情報を利用することで解決を試みた.それぞれのカテゴリに対応するマップを下位のサブカテゴリを特徴として生成することで,次元の少ない抽象化された空間におけるマップの構築が可能となった.提案手法は,テキストに含まれるキーワード数件に共通するカテゴリを,上位のカテゴリにさかのぼって調べていくことで抽出する.サブカテゴリへのリンクをマップ内のラベルとして保持させることで,マップに配置されているアイテムがどのような内容に類似するデータであるかを推察することが可能となる.これにより,それぞれのカテゴリにデータを分散配置させ,それぞれのカテゴリでSOMを適用するため,さらに大規模なデータを一度に処理することが可能となった.また,SOMにおける入力ベクトルの生成は,データが追加される毎に再設定が必要だったが,Wikipediaの情報を利用することで再設定の必要がなくなり,共通カテゴリの抽出によってこれらの処理を代用した.そのため,提案手法は,オンライン型の追加学習に対応可能なSOMとして機能することができることを確認した.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
研究課題として3点の問題点に言及し,そのうちの2点がすでに解決済みであること,さらに最後の1点に関しても研究を進めているところであり,こちらも成果発表が可能になるまでさほど時間は要さないと思われる.
|
Strategy for Future Research Activity |
研究課題に挙げた3点の問題点において,2つの問題点を解決した.残り1つの課題として,有害情報の除去等に取り組むことを研究計画において明記したが,有害情報の除去に限らず,ユーザの閲覧効率の向上を目指して,類似情報を集約する等の技術を盛り込んだシステム開発に取り組む予定である.
|
Research Products
(3 results)