研究課題/領域番号 |
19F17769
|
研究種目 |
特別研究員奨励費
|
配分区分 | 補助金 |
応募区分 | 外国 |
研究分野 |
図書館情報学・人文社会情報学
|
研究機関 | 国立情報学研究所 |
研究代表者 |
北本 朝展 国立情報学研究所, コンテンツ科学研究系, 准教授 (00300707)
|
研究分担者 |
HLADIK RADIM 国立情報学研究所, コンテンツ科学研究系, 外国人特別研究員
|
研究期間 (年度) |
2019-04-25 – 2020-03-31
|
研究課題ステータス |
完了 (2019年度)
|
配分額 *注記 |
700千円 (直接経費: 700千円)
2019年度: 700千円 (直接経費: 700千円)
|
キーワード | 社会学 / 文体分析 / テキストマイニング / トピックモデル / 引用分析 / 科学計量学 / 研究コミュニティ |
研究開始時の研究の概要 |
社会科学におけるテキストに対し、自然科学的な厳格で統一された文章形式と、文学的な散文の創造的な形式という、2つのスタイルを定量化しマッピングすることを研究の目的とする。このようなスタイルを分析するために、自然言語処理や機械学習を活用したテキストマイニング手法を新たに開発する。また社会科学コミュニティにおける引用回数やジェンダーなどとスタイルの関係を分析するモデルを開発する。
|
研究実績の概要 |
チェコの社会学研究コミュニティを対象とし、学術的な出版物のコーパスの分析を通して、個々の研究者の研究スタイルや共同研究、引用数などの指標と研究評価を科学計量学的に関連付けるための研究を進めた。こうした研究は英語圏での研究が多くみられるが、その他の地域や言語における分析を進めることで、それぞれの類似性や独自性を探ることも重要な課題である。昨年度にすでに構築した「チェコ社会学論文コーパス」を活用し、テキストマイニング手法を高度化しながら分析を進めた。 第一に、文学的な執筆スタイルと科学的な執筆スタイルの違いを探るため、テキストの素性(動詞等)のみで論文をクラスタリングした。その結果、文学的な執筆スタイルから遠いほど、共著の割合、引用回数、ファーストオーサーが女性である割合が高かった。また科学的な執筆スタイルとは、頻出名詞の意味的な分布も異なることがわかった。 第二に、アルゴリズムから導かれる社会学論文のトピックが引用に与える影響を探るため、論文の累積引用数とトピックワードのオッズ比を調べた。そのために確率的階層ブロックモデルを改良したトピックモデルを構築した。その結果、論文のトピックが引用に大きな影響を与えていること、また引用にはジェンダーや共著者数など他の要素も影響を与えている可能性があることを見出した。 最後に、これらの研究成果を日本の研究コミュニティと共有するためのセミナー「第11回CODHセミナー(Text Mining for Analyzing Research Communities: Sociological Topics and Socio-Technical Imaginaries)」を2019年9月25日に主催し、同じ分野の研究者と意見を交換した。
|
現在までの達成度 (段落) |
令和元年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
令和元年度が最終年度であるため、記入しない。
|