Project/Area Number |
17F17769
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Single-year Grants |
Section | 外国 |
Research Field |
Library and information science/Humanistic social informatics
|
Research Institution | National Institute of Informatics |
Principal Investigator |
北本 朝展 国立情報学研究所, コンテンツ科学研究系, 准教授 (00300707)
|
Co-Investigator(Kenkyū-buntansha) |
HLADIK RADIM 国立情報学研究所, 大学共同利用機関等の部局等, 外国人特別研究員
|
Project Period (FY) |
2017-10-13 – 2019-03-31
|
Project Status |
Completed (Fiscal Year 2018)
|
Budget Amount *help |
¥700,000 (Direct Cost: ¥700,000)
Fiscal Year 2018: ¥600,000 (Direct Cost: ¥600,000)
Fiscal Year 2017: ¥100,000 (Direct Cost: ¥100,000)
|
Keywords | 社会学 / 文体分析 / 計算言語学 / トピックモデル / ジェンダー / 引用分析 / ネットワーク / 科学計量学 / 研究論文文体 / レトリック / フィクション |
Outline of Annual Research Achievements |
テキストの特性が社会学的知識の形成にどう寄与するかという問題に取り組んだ。具体的には、テキストから自動抽出するトピックに基づき、引用数や著者性別を予測するモデルの構築を目標とした。 この実験には前年度に構築した社会学論文コーパスを利用した。最初の実験ではトピック分類手法として著名なLatent Dirichlet Allocation(LDA)を利用したが、本研究が目的とする高度なモデリングには利用できないことが判明した。そこでネットワークベースのアルゴリズムに切り替え、LDAの制限が克服できることを示した。この方法を用いて、チェコの社会学論文コーパスから33トピックを特定し、対数オッズ比を用いて定量化した。これを回帰モデルへの入力として利用することで、トピックの引用数や著者性別との関係を詳細に調査した。例えば女性の社会学者はライフコースやソーシャルケアについて書く傾向があること、また理論的な社会学論文については比較的少ない引用回数になるなどの結果を明らかにした。そして、チェコの社会学論文に関するこれらの研究成果を、データ可視化のWebアプリケーション「Evalvis」として一般に公開した。 以上の研究成果の公表として、まずテキストコーパスを LINDAT/CLARINリポジトリで公開し、研究を検証可能な状態とした。次に国際学会やワークショップで3件の研究成果を発表するとともに、フランスのリヨン大学で開催されたコロキアムでも報告を行った。さらに2019年3月には大阪大学で開催されたOsaka Symposium on Corpus Stylisticsに参加し、日本のコーパス言語学や文体分析研究の動向に関しても情報収集を行った。
|
Research Progress Status |
平成30年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
平成30年度が最終年度であるため、記入しない。
|