研究課題/領域番号 |
19K11983
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分60080:データベース関連
|
研究機関 | 早稲田大学 |
研究代表者 |
岩井原 瑞穂 早稲田大学, 理工学術院(情報生産システム研究科・センター), 教授 (40253538)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2021年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2020年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2019年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
|
キーワード | データマイニング / テキストマイニング / 情報抽出 / 知識グラフ / 時系列分析 / ソーシャルメディア / 知識処理 / センチメント分析 / 知識抽出 / 時系列データ |
研究開始時の研究の概要 |
代表的な知識蓄積型ソーシャルメディアであるWikipediaは,リンク関係やカテゴリなど計算機利用が容易な構造的データを含んでいるため,記事の項目をノードとし項目間の関連を枝とする知識グラフが抽出され,検索や分類,自然言語処理の多様なタスク等に広く活用されている.本研究では,(1)知識グラフの構造的拡張, (1-a) 記事間のリンク予測および記事の分離統合予測問題,(1-b) Wikipediaリストの要素帰属問題およびテーブルスキーマ生成問題,(2)編集履歴からの特徴的語句の抽出,(3)ソーシャルメディアにおけるセンチメントの集約表現からなる研究課題に取り組む.
|
研究成果の概要 |
知識蓄積型ソーシャルメディアであるWikipediaからは,計算機利用が容易な構造的データが知識グラフとして抽出され,検索結果の分類や種々の自然言語処理に活用されている.知識グラフを充実させるためのWikipedia記事のマイニングにおいて,リンクやリストなどの構造情報を活用し,さらに拡張する手法が必要である. 本研究では,Wikipediaにおいて,併合すべき記事対の予測および新たなリンクを予測する手法を開発した.テキストからのキーフレーズ抽出について,訓練済み言語モデルを用いた手法を開発し従来を上回る精度を示した.センチメント分析を応用したツィートの著者推定を行う手法を開発した.
|
研究成果の学術的意義や社会的意義 |
ウェブからの有用な情報の抽出は,日々生成される膨大なデータを整理分類する基礎的段階を含む.テキスト分類は伝統的に多くの手法が提案されてきたが,新たな形態のテキストとして,Wikipediaの記事の階層的構造や,ツィートのハッシュタグ,さらにこれらの時系列的要素などの課題が出現している.一方,訓練済み学習モデルと呼ばれる深層学習を元にした手法が,従来手法を一変させつつある.本研究では,キーフレーズ抽出,リンク予測,階層的分類等の問題および知識グラフの応用について幅広く研究を行い,いくつかの問題では従来を上回る性能を示すことができた.
|