チェコの社会学における学術著作物と知的組織化に対するデジタル調査手法
Project/Area Number |
19F17769
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Single-year Grants |
Section | 外国 |
Research Field |
Library and information science/Humanistic social informatics
|
Research Institution | National Institute of Informatics |
Principal Investigator |
北本 朝展 国立情報学研究所, コンテンツ科学研究系, 准教授 (00300707)
|
Co-Investigator(Kenkyū-buntansha) |
HLADIK RADIM 国立情報学研究所, コンテンツ科学研究系, 外国人特別研究員
|
Project Period (FY) |
2019-04-25 – 2020-03-31
|
Project Status |
Completed (Fiscal Year 2019)
|
Budget Amount *help |
¥700,000 (Direct Cost: ¥700,000)
Fiscal Year 2019: ¥700,000 (Direct Cost: ¥700,000)
|
Keywords | 社会学 / 文体分析 / テキストマイニング / トピックモデル / 引用分析 / 科学計量学 / 研究コミュニティ |
Outline of Research at the Start |
社会科学におけるテキストに対し、自然科学的な厳格で統一された文章形式と、文学的な散文の創造的な形式という、2つのスタイルを定量化しマッピングすることを研究の目的とする。このようなスタイルを分析するために、自然言語処理や機械学習を活用したテキストマイニング手法を新たに開発する。また社会科学コミュニティにおける引用回数やジェンダーなどとスタイルの関係を分析するモデルを開発する。
|
Outline of Annual Research Achievements |
チェコの社会学研究コミュニティを対象とし、学術的な出版物のコーパスの分析を通して、個々の研究者の研究スタイルや共同研究、引用数などの指標と研究評価を科学計量学的に関連付けるための研究を進めた。こうした研究は英語圏での研究が多くみられるが、その他の地域や言語における分析を進めることで、それぞれの類似性や独自性を探ることも重要な課題である。昨年度にすでに構築した「チェコ社会学論文コーパス」を活用し、テキストマイニング手法を高度化しながら分析を進めた。 第一に、文学的な執筆スタイルと科学的な執筆スタイルの違いを探るため、テキストの素性(動詞等)のみで論文をクラスタリングした。その結果、文学的な執筆スタイルから遠いほど、共著の割合、引用回数、ファーストオーサーが女性である割合が高かった。また科学的な執筆スタイルとは、頻出名詞の意味的な分布も異なることがわかった。 第二に、アルゴリズムから導かれる社会学論文のトピックが引用に与える影響を探るため、論文の累積引用数とトピックワードのオッズ比を調べた。そのために確率的階層ブロックモデルを改良したトピックモデルを構築した。その結果、論文のトピックが引用に大きな影響を与えていること、また引用にはジェンダーや共著者数など他の要素も影響を与えている可能性があることを見出した。 最後に、これらの研究成果を日本の研究コミュニティと共有するためのセミナー「第11回CODHセミナー(Text Mining for Analyzing Research Communities: Sociological Topics and Socio-Technical Imaginaries)」を2019年9月25日に主催し、同じ分野の研究者と意見を交換した。
|
Research Progress Status |
令和元年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和元年度が最終年度であるため、記入しない。
|
Report
(1 results)
Research Products
(7 results)