2013 Fiscal Year Research-status Report
Webコンテンツのメタデータ自動付与に基づくシンボルグラウンディング
Project/Area Number |
25540140
|
Research Category |
Grant-in-Aid for Challenging Exploratory Research
|
Research Institution | Kyoto University |
Principal Investigator |
河原 大輔 京都大学, 情報学研究科, 准教授 (10450694)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | シンボルグラウンディング / 時空間情報 / メタデータ / 曖昧性解消 / 固有表現 / Webコンテンツ / ジオコーディング |
Research Abstract |
平成25年度は、1) 時間、場所、人・組織の参照先についての整理・検討、2)テキスト情報と実世界情報が明示的に関連付けられたデータの収集・検討、3)時間、場所、著者情報が明示的に関連付けられた Webコンテンツの収集・検討、4) テキスト中の固有表現の曖昧性を解消するための知識獲得を行った。それぞれについての詳細を以下で述べる。 1) 時間、場所、人・組織の参照先についての整理・検討: まず実現可能なタスクを設定するため、実世界の参照先として適切なものを整理、検討した。時間は、日付・時刻に対する国際標準であるISO8601に正規化し、参照先とする。場所は、一般的にジオコーディングで用いられている地理座標(緯度・経度)に正規化し、参照先とする。人・組織については、Wikipediaにエントリがあれば、Wikipediaエントリを参照先とし、なければブログページURLとすることとした。 2) テキスト情報と実世界情報が明示的に関連付けられたデータの収集・検討: 時空間情報が付与されたTwitterデータを収集した。このデータに基づき、テキスト中の固有表現を実世界の参照先に対応付けるための知識・システムについて検討した。 3) 時間、場所、著者情報が明示的に関連付けられたWebコンテンツの収集・検討: 一般的なWebコンテンツのクロールを行った。このデータに対して、メタデータを付与するためのシステムの予備検討を行った。 4) テキスト中の固有表現の曖昧性を解消するための知識獲得: 大規模に収集したWebコンテンツ集合から、固有表現の曖昧性を解消し参照先を同定するための知識を獲得することを検討した。このような知識の一つとして、固有表現の係り先となっている動詞のクラスが重要な役割を担うことがわかったため、動詞クラスを同定する手法について研究開発した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
「研究の目的」を達成するために立てた研究計画に従い、平成25年度に実施すべきことはおおむね実施することができた。そのため、「おおむね順調に進展している。」と評価した。
|
Strategy for Future Research Activity |
今後、「テキスト中の固有表現の曖昧性を解消するための知識獲得」をさらに進めるとともに、実世界参照先同定システムおよびメタデータ付与システムのプロトタイプの開発を開始する。
|
Expenditure Plans for the Next FY Research Funding |
既存の設備を利用することで研究を進めることができたこと、また成果発表が次年度になったために年度内の旅費の使用がなかったことにより、次年度使用額が生じた。 次年度使用額を成果発表旅費に充当することによって、成果発表を行う。また、既存の設備を増強した方が効率的に研究を進められると判断した場合には、翌年分として請求した助成金と合わせて利用する予定である。
|
Research Products
(1 results)