研究課題/領域番号 |
15K16090
|
研究機関 | 慶應義塾大学 |
研究代表者 |
森田 武史 慶應義塾大学, 理工学部, 講師 (50590171)
|
研究期間 (年度) |
2015-04-01 – 2018-03-31
|
キーワード | セマンティックWeb / オントロジー / Wikipedia / Linked Data / オントロジーアライメント / オントロジー学習 / WordNet |
研究実績の概要 |
本研究では,大規模多言語RDFグラフからクラススキーマ階層を構築することを目的とする.これまでに,日本語Wikipediaからオントロジーを自動構築し,日本語WordNetと統合することにより,クラススキーマ階層を構築する手法を提案してきた.本研究では,大規模多言語RDFグラフ(DBpediaおよびBabelNet)に先行研究で提案した手法を適用する.多言語に対応したクラススキーマ階層構築を試みている研究は,国内外の関連研究には見受けられないため,独創的であると考えられる.本研究で構築するクラススキーマ階層は,RDFグラフを活用した質問応答システム,ドメインオントロジーを構築するための参照リソース,RDFグラフの推論を用いた検索等への活用が期待できる. 平成27年度は,クラススキーマ階層を構築する前段階として,英語Wikipediaの記事におけるリスト構造からRDFトリプルを抽出し,DBpediaにおけるリソースとのマッピングを試みた.その結果,約2,000万のRDFトリプルを抽出することができた.今後,本研究成果をクラススキーマ階層構築につなげるためには,抽出したプロパティとDBpediaにおけるプロパティとのマッピングと,DBpediaに存在しないプロパティについては,RDFトリプルの主語と目的語リソースが属するカテゴリからクラスを推定する必要がある.推定したクラスとWordNetにおけるSynsetとのアライメントを行うことにより,これまで提案してきた,クラススキーマ構築手法を適用することができると考えられる.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
当初の計画では,平成27年度は,DBpediaとBabelNetにおけるクラス階層およびクラスーインスタンス関係の洗練を行う予定であったが,先行研究で扱ってきた日本語Wikipediaオントロジーと比較して,DBpediaおよびBabelNetは,RDFトリプル数が非常に膨大であることもあり,計画どおりにクラス階層およびクラスーインスタンス関係の洗練を行うことができていない. 課題としては,数億RDFトリプルを扱うことができるRDFストア環境の構築が挙げられる.
|
今後の研究の推進方策 |
先行研究で開発してきた半自動的にクラスーインスタンス関係の洗練やオントロジーアライメントを適用する方法では,リソース数が膨大な,DBpediaやBabelNetを洗練することは困難であるため,多少精度を落としたとしても,人手を介さずに,自動的に洗練やアライメントを行う手法を今後は検討する予定である. これまでは,1,000万から2,000万RDFトリプル程度を扱うことができれば問題なかったが,DBpediaとBabelNetを扱うためには,数億から数十億RDFトリプルの規模を扱う必要があるため,大規模RDFトリプルを扱うことが可能なRDFストアの選定を行い,DBpediaとBabelNetのデータを容易に扱うことができる環境構築を,今後は最優先に行いたい. その後,オントロジーアライメント手法を,まずは,DBpediaにおけるクラスとWordNetにおけるSynsetに対して適用し,アライメント結果を元に,プロパティのリフトを試みる.半自動的にアライメントを行う場合と比較して,精度が低くなることが想定されるため,自動構築されたクラススキーマ階層のデバッグを行うツールを開発する予定である. BabelNetについては,DBpediaである程度,成果が出た後に,クラススキーマ階層構築を試みる予定である.
|
次年度使用額が生じた理由 |
研究計画に記載していた国際会議ISWC2015に参加することができず,旅費の支出額が想定していたよりも少なくなったため.
|
次年度使用額の使用計画 |
国際会議やワークショップに論文を投稿し,旅費や参加費として使用する予定である.
|