研究課題/領域番号 |
15500081
|
研究種目 |
基盤研究(C)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
メディア情報学・データベース
|
研究機関 | 国立情報学研究所 |
研究代表者 |
相澤 彰子 国立情報学研究所, 情報学資源研究センター, 教授 (90222447)
|
研究期間 (年度) |
2003 – 2004
|
研究課題ステータス |
完了 (2004年度)
|
配分額 *注記 |
3,500千円 (直接経費: 3,500千円)
2004年度: 1,700千円 (直接経費: 1,700千円)
2003年度: 1,800千円 (直接経費: 1,800千円)
|
キーワード | テキストマイニング / 統計的言語処理 / 文書クラスタリング / 情報検索 / 情報量尺度 / 複合語抽出 |
研究概要 |
本研究では、テキストの形式の電子文書を対象に、互いに結びつきの強い情報をグループ化して、インデクシング資源としてシステムに蓄積する「クラスタ指向インデクシング」の枠組を提案した。また、このような枠組の適用により、大規模・不均一なデータに対する検索機能が強化できることを、実データへの適用を通して検証する。具体的には、インデクシング資源を自動生成するためのクラスタリング技術として、(i)共起統計と相互情報量に基づく多属性同時クラスタリング法、(ii)テキスト再現性と無限長単語Nグラムに基づく高速クラスタリング法、の2つを検討し、以下の研究を行った。 1.共起統計に基づくクラスタリング手法の検討 局所的なクラスタリングの適用により任意に重なり合う関連文書や関連語のグループを生成する手法を提案し、新聞記事を中心とするテキストコーパスに適用して効果を調べた。 2.テキストの再現性に基づくクラスタリング手法の検討 反復単語列に基づく高速クラスタリング法について検討し、クラスタリングのためのプログラム実装を行った。また、実際にクラスタの抽出を行い、著者性やコミュニティ度の数量化について考察した。 3.クラスタ指向検索システムの検討 クラスタリングにより検索結果を再ランキングする検索システムを試作し、特定の専門分野辞書を用いることにより、利用者の興味がランキング結果に反映されることを示した。 4.Nグラムに基づく高速クラスタリング法を用いて、同一エンティティ候補抽出法の検討 単語Nグラムに基づく高速クラスタリング法を用いて、同一のエンティティを参照するデータベースレコード候補を高速抽出する手法を提案し、有効性を調べた。 本研究で得られた知見に基づき、今後は、インデックス作成時に不可欠な辞書項目自動抽出のための言語処理手法の検討、および、Webに代表されるテキストどうしの共参照エンティティ抽出手法について検討を行う予定である。
|