研究領域 | 情報爆発時代に向けた新しいIT基盤技術の研究 |
研究課題/領域番号 |
18049069
|
研究機関 | 国立情報学研究所 |
研究代表者 |
安達 淳 国立情報学研究所, コンテンツ科学研究系, 教授 (80143551)
|
研究分担者 |
大山 敬三 国立情報学研究所, コンテンツ科学研究系, 教授 (90177022)
高須 淳宏 国立情報学研究所, コンテンツ科学研究系, 教授 (90216648)
相澤 彰子 国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
井上 雅史 国立情報学研究所, コンテンツ科学研究系, 助教 (50390597)
|
キーワード | 情報検索 / 情報リンケージ / 大規模コーパス / テキスト処理 / 機械学習 |
研究概要 |
本研究は、インターネット上で公開される各種テキストや個人・組織が管理する文書を対象として、関連する情報を結び付ける「情報リンケージ」プラットフォームの実現を目的とする。平成19年度は、情報リンケージプラットフォームの要素技術となる下記の研究に取り組んだ。 1.データベースのレコードを軸としテキスト中に現れるエンティティと結びつける研究 フォーマットが指定されていないテキストをクエリとしてデータベース中の対応するレコードを検索する手法の研究を行った。特に大規模なデータベースに対して効率よく検索できる近似検索法を中心に研究を進めた。また、大規模な書誌データベースを用いて実験システムを試作し、その性能の評価を行った。 2.大規模ディレクトリを利用した人物リンケージ法の研究 実体を人物に限定し、特に同姓同名の人物を識別する手法の研究を行った。人物の同定精度をあげるために、その人物に関連するトピックに着目し、Web上に公開されているディレクトリを用いてトピックを人物について記述しているWebページからトピックを自動的に抽出方法を考案した。 2.半構造データリンケージのための順序木のマッチング研究 半構造データのリンケージを行うために、木構造データの近似マッチング法の研究を行った。木構造データの類似度を適応的にはかるための、統計的な近似モデルを提案し、訓練データからモデルのパラメタを推定する学習アルゴリズムを開発した。
|