研究課題/領域番号 |
17F17769
|
研究種目 |
特別研究員奨励費
|
配分区分 | 補助金 |
応募区分 | 外国 |
研究分野 |
図書館情報学・人文社会情報学
|
研究機関 | 国立情報学研究所 |
研究代表者 |
北本 朝展 国立情報学研究所, コンテンツ科学研究系, 准教授 (00300707)
|
研究分担者 |
HLADIK RADIM 国立情報学研究所, 大学共同利用機関等の部局等, 外国人特別研究員
|
研究期間 (年度) |
2017-10-13 – 2019-03-31
|
研究課題ステータス |
完了 (2018年度)
|
配分額 *注記 |
700千円 (直接経費: 700千円)
2018年度: 600千円 (直接経費: 600千円)
2017年度: 100千円 (直接経費: 100千円)
|
キーワード | 社会学 / 文体分析 / 計算言語学 / トピックモデル / ジェンダー / 引用分析 / ネットワーク / 科学計量学 / 研究論文文体 / レトリック / フィクション |
研究実績の概要 |
テキストの特性が社会学的知識の形成にどう寄与するかという問題に取り組んだ。具体的には、テキストから自動抽出するトピックに基づき、引用数や著者性別を予測するモデルの構築を目標とした。 この実験には前年度に構築した社会学論文コーパスを利用した。最初の実験ではトピック分類手法として著名なLatent Dirichlet Allocation(LDA)を利用したが、本研究が目的とする高度なモデリングには利用できないことが判明した。そこでネットワークベースのアルゴリズムに切り替え、LDAの制限が克服できることを示した。この方法を用いて、チェコの社会学論文コーパスから33トピックを特定し、対数オッズ比を用いて定量化した。これを回帰モデルへの入力として利用することで、トピックの引用数や著者性別との関係を詳細に調査した。例えば女性の社会学者はライフコースやソーシャルケアについて書く傾向があること、また理論的な社会学論文については比較的少ない引用回数になるなどの結果を明らかにした。そして、チェコの社会学論文に関するこれらの研究成果を、データ可視化のWebアプリケーション「Evalvis」として一般に公開した。 以上の研究成果の公表として、まずテキストコーパスを LINDAT/CLARINリポジトリで公開し、研究を検証可能な状態とした。次に国際学会やワークショップで3件の研究成果を発表するとともに、フランスのリヨン大学で開催されたコロキアムでも報告を行った。さらに2019年3月には大阪大学で開催されたOsaka Symposium on Corpus Stylisticsに参加し、日本のコーパス言語学や文体分析研究の動向に関しても情報収集を行った。
|
現在までの達成度 (段落) |
平成30年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
平成30年度が最終年度であるため、記入しない。
|