2018 Fiscal Year Annual Research Report
Credibility Validation of Web Information and Generation of Credible Information based on Quantitative Data
Project/Area Number |
18H03244
|
Research Institution | Kyoto University |
Principal Investigator |
加藤 誠 京都大学, 国際高等教育院, 特定講師 (00646911)
|
Co-Investigator(Kenkyū-buntansha) |
大島 裕明 兵庫県立大学, 応用情報科学研究科, 准教授 (90452317)
山本 祐輔 静岡大学, 情報学部, 講師 (50625431)
山本 岳洋 京都大学, 情報学研究科, 助教 (70717636)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Keywords | 情報検索 / データマイニング / 数量データ / 信頼性 |
Outline of Annual Research Achievements |
【数量データの収集とその集約に基づいた数量データの意味づけ】 数量データを大規模に収集するために,深層強化学習を用いたデータクローラを開発した.教科学習の報酬としてデータの発見の有無を,行動としてどのページへ遷移するかを設定し,長期的な報酬に基づいてリンクを選択的にたどるようなクローラを作成した.平成30年度の段階ではまだ実用には至っていないが,実験においては,これまで提案されていたオンライン学習に基づくクローラよりも高い効率を達成できることを確認している.また,Webから収集された400万件の表データから同一属性や上位下位関係を特定する方法について研究を行った.同一属性の判定には同一実体に対する属性値の一致度を用い,上位下位関係の判定には表の構造と属性値の関係性を用いる.
【数量データと情報の対応付けに基づく情報の信頼性評価】 Webページに記述されている内容と構造化された知識の対応づけをゼロショット学習の設定下において実現する方法を提案した.この提案手法では,訓練データに出現しないような知識であってもWebページ上の記述と対応づけることが可能であり,この方法によって,より広い範囲の知識とWeb上の記述を対応づけることが可能になった.提案モデルとしては,双方向LSTMによってWeb上の記述を特徴付け,それと知識ベース中のパスをグラフ埋め込みによって表現したものとの類似度を計算し,高い類似度を与えるようなパスがその記述に対応するとしている.また,「古い」や「長い」といったある特定の属性と関係が強い単語から,それが意味する属性値を推定する方法についても研究を行った.この方法では,単語と属性名の類似度に加えて,その単語と属性名が共起するかどうか,また,単語の有無によって属性値の分布が著しく変化するかどうかによって,単語と属性間の対応関係の強さを測った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
「(課題3)数量データからの高信頼情報の生成」については大きな進展はなかったものの,「(課題1)数量データの収集とその集約に基づいた数量データの意味づけ」,および,「(課題2)数量データと情報の対応付けに基づく情報の信頼性評価」については想定以上に研究が進んでいる.
|
Strategy for Future Research Activity |
(課題1)数量データの収集とその集約に基づいた数量データの意味づけ: 平成31年度は主に平成30年度に収集した数量データから同一性と包含関係の判定を大規模に行 う方法について取り組む. (課題2)数量データと情報の対応付けに基づく情報の信頼性評価: 平成31年度は主に平成30年度に収集した数量データから宣言的知識と数量データを対応づけることを目標とする. (課題3)数量データからの高信頼情報の生成: 平成31年度は検索行動ログから関係性を発見する方法について取り組む.
|
Research Products
(4 results)