2019 Fiscal Year Annual Research Report
A Study on Supporting Information Reliability Judgment by Presenting Global and Local Features of Web Pages
Project/Area Number |
17K00429
|
Research Institution | University of Hyogo |
Principal Investigator |
湯本 高行 兵庫県立大学, 工学研究科, 助教 (20453152)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 情報信頼性 / ウェブインテリジェンス |
Outline of Annual Research Achievements |
(1) 2018年度に開発した文の典型性の推定手法では,語ごとに頻度に基づいて典型性を推定し,その平均値を用いていた.2019年度は,語の出現頻度を補正することによってこの手法の改良を行った.具体的には,同義語の出現頻度の反映,類似する高頻度の語への置き換え,使用するデータベースの変更,共起しない語に対するスムージングを検討した.同義語の出現頻度の反映では,Wikipediaで同一の記事にリンクしているアンカー文字列を同義語として扱い,元の語の出現数および共起数に同義語の出現数および共起数を加えたものを用いた.また,類似する高頻度の語への置き換えでは,出現頻度の低い語については語の共起数も少なくなるため,共起に基づいて語の関連性を把握することが困難であるため,類似する高頻度の語に置き換えたうえで典型度を算出するものである.語の類似度の算出には,日本語Wikipediaエンティティベクトルのコサイン類似度を用いた.これらの手法により,低頻度の語を含む文においては典型性の推定精度が向上した. (2) 情報の発信者の特徴表現とそれを抽出する手法を開発した.この手法では,主にツイートを対象とし,ツイート中に出現する名詞が表すエンティティを Wikipedia の記事に紐付け,記事毎のカテゴリ情報を集計することで,ツイートの特徴表現を作成する.発信者のすべてのツイートに対して集計し,発信者の特徴表現を行う.
|