2009 Fiscal Year Annual Research Report
Web上のテキスト情報の信頼性と有益性の評価システムに関する研究
Publicly Offered Research
Project Area | Cyber Infrastructure for the Information-explosion Era |
Project/Area Number |
21013011
|
Research Institution | The University of Tokyo |
Principal Investigator |
中川 裕志 The University of Tokyo, 情報基盤センター, 教授 (20134893)
|
Co-Investigator(Kenkyū-buntansha) |
吉田 稔 東京大学, 情報基盤センター, 助教 (40361688)
清田 陽司 東京大学, 情報基盤センター, 助教 (10401316)
|
Keywords | Web / Wikipedia / テキスト / 情報抽出 / 有益性 / 信頼性 / 意外性 / 機械学習 |
Research Abstract |
申請書で記載した信頼性があり有益である情報の抽出を、Web2.0を代表する情報資源であるWikipediaを対象にして検討し、評価実験を行った。WikipediaをWebからダウンロードするには、申請書で記載したWiKIEなどを利用した。ここで、信頼性については、Wikipediaにおいて言語ごとにどのような質量の異なりがあるかを分析し、同じ事象が言語ごとに異なる表現で記載されていることが明確になった。たとえば、ヨーロッパでは第2次世界大戦だが、日本ではむしろ太平洋戦争という表現で項目記述なれているなどという現象を調査できた。一方、有益性に関しては、関連が密でない複数の知識を統合した見解を提示していることを意外性と見なして、評価する方法を検討した.初期段階では意外性のある記事の例とない例を1000ずつ厚め、これを教師データとしてSVMを利用して線形識別を試みた。教データにおいては80%以上の精度だったものの、意外性のある例が1%未満の現実に近い状態ではうまく機能しないことが判明した。そこで、意外性の有無を表す次元を加えた上で線形回帰および3次の回帰を行った。この結果、種々の意外性のあるWikipedia記事を上位にランクするランキングシステムを構築することができた。この結果、ソーシャルメディアにおける国際会議であるICWSM2010にて発表することとなった。その他、関連する機械学習の研究を行い、新規アルゴリズムの発見などの成果を得た。
|
Research Products
(15 results)