• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2013 年度 実施状況報告書

Webコンテンツのメタデータ自動付与に基づくシンボルグラウンディング

研究課題

研究課題/領域番号 25540140
研究種目

挑戦的萌芽研究

研究機関京都大学

研究代表者

河原 大輔  京都大学, 情報学研究科, 准教授 (10450694)

研究期間 (年度) 2013-04-01 – 2016-03-31
キーワードシンボルグラウンディング / 時空間情報 / メタデータ / 曖昧性解消 / 固有表現 / Webコンテンツ / ジオコーディング
研究概要

平成25年度は、1) 時間、場所、人・組織の参照先についての整理・検討、2)テキスト情報と実世界情報が明示的に関連付けられたデータの収集・検討、3)時間、場所、著者情報が明示的に関連付けられた Webコンテンツの収集・検討、4) テキスト中の固有表現の曖昧性を解消するための知識獲得を行った。それぞれについての詳細を以下で述べる。
1) 時間、場所、人・組織の参照先についての整理・検討: まず実現可能なタスクを設定するため、実世界の参照先として適切なものを整理、検討した。時間は、日付・時刻に対する国際標準であるISO8601に正規化し、参照先とする。場所は、一般的にジオコーディングで用いられている地理座標(緯度・経度)に正規化し、参照先とする。人・組織については、Wikipediaにエントリがあれば、Wikipediaエントリを参照先とし、なければブログページURLとすることとした。
2) テキスト情報と実世界情報が明示的に関連付けられたデータの収集・検討: 時空間情報が付与されたTwitterデータを収集した。このデータに基づき、テキスト中の固有表現を実世界の参照先に対応付けるための知識・システムについて検討した。
3) 時間、場所、著者情報が明示的に関連付けられたWebコンテンツの収集・検討: 一般的なWebコンテンツのクロールを行った。このデータに対して、メタデータを付与するためのシステムの予備検討を行った。
4) テキスト中の固有表現の曖昧性を解消するための知識獲得: 大規模に収集したWebコンテンツ集合から、固有表現の曖昧性を解消し参照先を同定するための知識を獲得することを検討した。このような知識の一つとして、固有表現の係り先となっている動詞のクラスが重要な役割を担うことがわかったため、動詞クラスを同定する手法について研究開発した。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

「研究の目的」を達成するために立てた研究計画に従い、平成25年度に実施すべきことはおおむね実施することができた。そのため、「おおむね順調に進展している。」と評価した。

今後の研究の推進方策

今後、「テキスト中の固有表現の曖昧性を解消するための知識獲得」をさらに進めるとともに、実世界参照先同定システムおよびメタデータ付与システムのプロトタイプの開発を開始する。

次年度の研究費の使用計画

既存の設備を利用することで研究を進めることができたこと、また成果発表が次年度になったために年度内の旅費の使用がなかったことにより、次年度使用額が生じた。
次年度使用額を成果発表旅費に充当することによって、成果発表を行う。また、既存の設備を増強した方が効率的に研究を進められると判断した場合には、翌年分として請求した助成金と合わせて利用する予定である。

  • 研究成果

    (1件)

すべて 2014

すべて 学会発表 (1件)

  • [学会発表] Single Classifier Approach for Verb Sense Disambiguation based on Generalized Features2014

    • 著者名/発表者名
      Daisuke Kawahara and Martha Palmer
    • 学会等名
      In Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC2014)
    • 発表場所
      Reykjavik, Iceland
    • 年月日
      2014-05-29

URL: 

公開日: 2015-05-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi