研究分担者
この研究課題のドキュメント
研究課題基本情報(最新年度)
研究期間
2001年度〜2005年度研究分野
審査区分
研究種目
特定領域研究(C)→特定領域研究
研究機関
国立情報学研究所
配分額
- 総額:111100千円
- 2002年度:29200千円 (直接経費:29200千円)
- 2003年度:27500千円 (直接経費:27500千円)
- 2004年度:26400千円 (直接経費:26400千円)
- 2005年度:28000千円 (直接経費:28000千円)
研究概要(最新報告)
本研究では,インタネット上の情報資源は,生産・流通・利用・蓄積・他との関連・形態などあらゆる側面において従来のコンテンツとは根本的に異なる「不均質」なコンテンツであることに着目し,Webの構造解析、メディア処理・活用手法、評価用テストベット構築、社会・利用分析の研究を進めた。
1)Webの構造解析については、そのリンク構造や言語情報に基づいた各種のクラスタリング法および情報が作られた時間情報を用いたトピックのトラッキング法を考案した。
2)メディア処理および活用に関しては,特に,(1)言語の不均質性,(2)ジャンル(コンテンツのタイプ)の不均質性に着目し,多言語の文書集合からのトピック抽出や文書のジャンルに応じた要約自動生成などについて研究を行った.さらに,(3)画像,映像などを含むメディア横断の検索手法や学習環境への活用について研究を行った。
3)国内外の多数の研究グループが参加する評価型ワークショップ「NTCIR」を開催し、不均質コンテンツ活用システムの有効性評価を目的とし、共通の評価用データを有するテストベッドを協同構築した。JPドメインから自動収集したテラバイト規模のデータセットを構築し、現実に即した評価方式を実現するなどの成果を得、当該研究領域の進展に貢献した。
4)Web情報源に対する工学的な処理とモデルの分析が前提としている認識論的布置を、その歴史的背景にある近代印刷世界との対比で分析し、そこから、近代図書館に特権的に理念化されてきた「過去のメッセージを現在のアクチャリティをもって蓄積する」モデルはオンラインでは成立しにくく、オンライン上の情報を、内容等ではなく、特定のメディア的・物理的属性により区別した上で、図書館モデルへ当てはめる領域を絞り込むことが妥当であることを示した。
This project aims at developing technology for utilizing the heterogeneous contents. We studied link and structural analysis of Webs, cross-media processing technology, epistemological framework of the Web and developed corpora for evaluating information utilization methods for the Web.
1) We developed an information extraction and organization methods using the textual and graphical structure of the Web
-Web page clustering methods based on the link structure
-Topic tracking using non-linear time-content analysis
2) We proposed some advanced methods for processing and utilizing multimedia as follows, focusing on media heterogeneity:
-topic detection from multilingual text collection
-user adaptive text summarization based on content types
-crossmedia search by enhancing annotation-based image retrieval model with content-based features
-JuNii+: user interface for image retrieval
-utilizing interview video archives for learning
3) We organized a series of evaluation workshops "NTCIR", in which a number of researchers participated to develop new testbeds, each of which consists of a common test data for research on heterogeneous digital content. As the results, for instance, we built up a terabyte-scale dataset by crawling the -jp domain, and established evaluation methodologies to meet the practical situation. These contributed to the progress of the research in this area
4) We analyzed the epistemological framework within which engineers process and model the Web information sources, contrasting it with the modern system of printed books. On the basis of the analysis, we concluded that it is hard to directly apply the model defined by the quintessentially modern concept of information accumulation as represented in the ideal of libraries, and showed that "information editing" would be necessary to explore fully the potential of web information sources.
このページのURI
http://kaken.nii.ac.jp/ja/p/13224087