研究課題/領域番号 |
17F17769
|
研究機関 | 国立情報学研究所 |
研究代表者 |
北本 朝展 国立情報学研究所, コンテンツ科学研究系, 准教授 (00300707)
|
研究分担者 |
HLADIK RADIM 国立情報学研究所, コンテンツ科学研究系, 外国人特別研究員
|
研究期間 (年度) |
2017-10-13 – 2019-03-31
|
キーワード | 文体分析 / 研究論文文体 / レトリック / 社会学 / フィクション / 計算言語学 |
研究実績の概要 |
デジタルヒューマニティーズの分野で開発された内容分析のためのテキストマイニング手法を用いて、社会学論文で用いられる科学志向型と物語志向型の2つの文体を分類し、この文体が研究コミュニティにどのように影響するかをモデル化するための、基礎的なデータ整備と研究発表の準備に注力した。 第一に大規模テキストデータを構築するタスクとして、「チェコ社会学レビュー」のテキストデータをクリーニングして分析に適した状態にした。また自然言語処理ツールなどを用いて、テキストのタグ付けを行った。 第二に、テキストの統計的解析のためのテキストマイニングツールを比較調査し、本格的な分析に備えるためのセルフトレーニングを行った。そしてテキストコーパスに適した分析手法として、テキストの特徴量、特に動詞の分布に着目した教師なし分類が有効であるとの仮説を立て、その有効性を検証した。その結果、これらの分類が計量書誌学的変数に大きな影響を与えることを明らかにした。文学から距離が遠い記事は、共著者率、引用数、および第一著者の女性割合が高く、最もよく使われる名詞には明確な違いがあることを見出した。 これらの研究成果の公表として、2018年5月に開催されたInternational Workshop on Mining Scientific Publicationsでは、"Exploring Textual and Social Hierarchies in Czech Sociological Articles"と題して研究発表を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
当初の計画通り、チェコ社会学レビューのテキストコーパスを構築し、テキストマイニングの実験に利用する段階にまで到達できた点は、おおむね順調に進んでいると評価できる。ただし、研究発表については適当な時期に適当なテーマで発表できる学会を見出すのが困難であり、結果的に研究発表は当初の目的よりも遅れることとなった。
|
今後の研究の推進方策 |
すでにチェコ社会学レビューの全文テキストコーパスを構築し、定量分析の方法論に習熟することができたため、今後はテキストマイニングツールを活用した定量的な分析手法の開発に焦点を合わせることとする。頻度分析やトピック分析、キーワード分析、クラスタリング、テキスト分析などを組み合わせることで、学術知識の表現方法と知識構造との連関という問題に取り組む。また査読付き国際会議からすでに採択通知を受けていることから、これらの会議に参加して国際的に成果を発表する。さらに時間が許せば日本国内においてもチュートリアルのような発表の場を企画することで、日本の研究コミュニティにも成果を還元することを考えている。
|