• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Credibility Validation of Web Information and Generation of Credible Information based on Quantitative Data

Research Project

Project/Area Number 18H03244
Research Category

Grant-in-Aid for Scientific Research (B)

Allocation TypeSingle-year Grants
Section一般
Review Section Basic Section 60080:Database-related
Research InstitutionUniversity of Tsukuba (2019-2020)
Kyoto University (2018)

Principal Investigator

加藤 誠  筑波大学, 図書館情報メディア系, 准教授 (00646911)

Co-Investigator(Kenkyū-buntansha) 吉川 正俊  京都大学, 情報学研究科, 教授 (30182736)
山本 祐輔  静岡大学, 情報学部, 講師 (50625431)
大島 裕明  兵庫県立大学, 応用情報科学研究科, 准教授 (90452317)
山本 岳洋  京都大学, 情報学研究科, 助教 (70717636)
Project Period (FY) 2018-04-01 – 2023-03-31
Project Status Granted (Fiscal Year 2020)
Budget Amount *help
¥17,030,000 (Direct Cost: ¥13,100,000、Indirect Cost: ¥3,930,000)
Fiscal Year 2020: ¥2,860,000 (Direct Cost: ¥2,200,000、Indirect Cost: ¥660,000)
Fiscal Year 2019: ¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000)
Fiscal Year 2018: ¥5,460,000 (Direct Cost: ¥4,200,000、Indirect Cost: ¥1,260,000)
Keywords情報検索 / データマイニング / 数量データ / 信頼性
Outline of Annual Research Achievements

【数量データの収集とその集約に基づいた数量データの意味づけ】
数量データを大規模に収集するために,深層強化学習を用いたデータクローラを開発した.教科学習の報酬としてデータの発見の有無を,行動としてどのページへ遷移するかを設定し,長期的な報酬に基づいてリンクを選択的にたどるようなクローラを作成した.平成30年度の段階ではまだ実用には至っていないが,実験においては,これまで提案されていたオンライン学習に基づくクローラよりも高い効率を達成できることを確認している.また,Webから収集された400万件の表データから同一属性や上位下位関係を特定する方法について研究を行った.同一属性の判定には同一実体に対する属性値の一致度を用い,上位下位関係の判定には表の構造と属性値の関係性を用いる.

【数量データと情報の対応付けに基づく情報の信頼性評価】
Webページに記述されている内容と構造化された知識の対応づけをゼロショット学習の設定下において実現する方法を提案した.この提案手法では,訓練データに出現しないような知識であってもWebページ上の記述と対応づけることが可能であり,この方法によって,より広い範囲の知識とWeb上の記述を対応づけることが可能になった.提案モデルとしては,双方向LSTMによってWeb上の記述を特徴付け,それと知識ベース中のパスをグラフ埋め込みによって表現したものとの類似度を計算し,高い類似度を与えるようなパスがその記述に対応するとしている.また,「古い」や「長い」といったある特定の属性と関係が強い単語から,それが意味する属性値を推定する方法についても研究を行った.この方法では,単語と属性名の類似度に加えて,その単語と属性名が共起するかどうか,また,単語の有無によって属性値の分布が著しく変化するかどうかによって,単語と属性間の対応関係の強さを測った.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

「(課題3)数量データからの高信頼情報の生成」については大きな進展はなかったものの,「(課題1)数量データの収集とその集約に基づいた数量データの意味づけ」,および,「(課題2)数量データと情報の対応付けに基づく情報の信頼性評価」については想定以上に研究が進んでいる.

Strategy for Future Research Activity

(課題1)数量データの収集とその集約に基づいた数量データの意味づけ: 平成31年度は主に平成30年度に収集した数量データから同一性と包含関係の判定を大規模に行 う方法について取り組む.
(課題2)数量データと情報の対応付けに基づく情報の信頼性評価: 平成31年度は主に平成30年度に収集した数量データから宣言的知識と数量データを対応づけることを目標とする.
(課題3)数量データからの高信頼情報の生成: 平成31年度は検索行動ログから関係性を発見する方法について取り組む.

Report

(1 results)
  • 2018 Annual Research Report

Research Products

(4 results)

All 2019 2018

All Journal Article Presentation

  • [Journal Article] Entity Ranking for Queries with Modifiers Based on Knowledge Bases and Web Search Results2018

    • Author(s)
      Wiradee Imrattanatrai, Makoto P. Kato, Katsumi Tanaka, Masatoshi Yoshikawa
    • Journal Title

      IEICE Trans. Inf. & Syst.

      Volume: 101-D(9) Issue: 9 Pages: 2279-2290

    • DOI

      10.1587/transinf.2017edp7372

      10.1587/transinf.2017EDP7372

    • NAID

      130007479663

    • ISSN
      0916-8532, 1745-1361
    • Related Report
      2018 Annual Research Report
    • Peer Reviewed / Open Access
  • [Presentation] ゼロショット学習によるテキストからのエンティティプロパティ同定2019

    • Author(s)
      Wiradee Imrattanatrai,加藤 誠,吉川 正俊
    • Organizer
      第11回データ工学と情報マネジメントに関するフォーラム
    • Related Report
      2018 Annual Research Report
  • [Presentation] 飲食店レビューにおける再訪問ユーザの行動の分析2019

    • Author(s)
      白髪 宙海, 村本 直樹, 高橋 克郎, 大島 裕明
    • Organizer
      第11回データ工学と情報マネジメントに関するフォーラム
    • Related Report
      2018 Annual Research Report
  • [Presentation] 食べログの再訪問レビューの発見2018

    • Author(s)
      白髪 宙海, 村本 直樹, 大島 裕明
    • Organizer
      第11回Webとデータベースに関するフォーラム
    • Related Report
      2018 Annual Research Report

URL: 

Published: 2018-04-23   Modified: 2020-08-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi