研究分担者 |
相澤 彰子 国立情報学研究所, 情報学資源研究センター, 教授 (90222447)
神門 典子 国立情報学研究所, ソフトウェア研究系, 教授 (80270445)
影浦 峡 東京大学, 教育学研究科, 助教授 (00211152)
高須 淳宏 国立情報学研究所, 実証研究センター, 教授 (90216648)
相原 健郎 国立情報学研究所, ソフトウェア研究系, 助教授 (90300706)
|
研究概要 |
本研究では,インタネット上の情報資源は,生産・流通・利用・蓄積・他との関連・形態などあらゆる側面において従来のコンテンツとは根本的に異なる「不均質」なコンテンツであることに着目し,Webの構造解析、メディア処理・活用手法、評価用テストベット構築、社会・利用分析の研究を進めた。 1)Webの構造解析については、そのリンク構造や言語情報に基づいた各種のクラスタリング法および情報が作られた時間情報を用いたトピックのトラッキング法を考案した。 2)メディア処理および活用に関しては,特に,(1)言語の不均質性,(2)ジャンル(コンテンツのタイプ)の不均質性に着目し,多言語の文書集合からのトピック抽出や文書のジャンルに応じた要約自動生成などについて研究を行った.さらに,(3)画像,映像などを含むメディア横断の検索手法や学習環境への活用について研究を行った。 3)国内外の多数の研究グループが参加する評価型ワークショップ「NTCIR」を開催し、不均質コンテンツ活用システムの有効性評価を目的とし、共通の評価用データを有するテストベッドを協同構築した。JPドメインから自動収集したテラバイト規模のデータセットを構築し、現実に即した評価方式を実現するなどの成果を得、当該研究領域の進展に貢献した。 4)Web情報源に対する工学的な処理とモデルの分析が前提としている認識論的布置を、その歴史的背景にある近代印刷世界との対比で分析し、そこから、近代図書館に特権的に理念化されてきた「過去のメッセージを現在のアクチャリティをもって蓄積する」モデルはオンラインでは成立しにくく、オンライン上の情報を、内容等ではなく、特定のメディア的・物理的属性により区別した上で、図書館モデルへ当てはめる領域を絞り込むことが妥当であることを示した。
|