研究課題/領域番号 |
17K02732
|
研究機関 | 徳島大学 |
研究代表者 |
石田 基広 徳島大学, 大学院社会産業理工学研究部(社会総合科学域), 教授 (40232318)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
キーワード | 計量言語学 / テキストマイニング / 応用統計学 |
研究実績の概要 |
前年度に引き続き、分析対象とするテキストの整備を中心に作業を進めた。ここで整備とは、テキストの電子化とOCR化(デジタル化)を指す。この意味で、テキスト種の1つとしての小説については、ほぼ整備を終えることができた。この他、論文などの散文テキストについては、さらにデータ整備を進める必要が残っている。 整備済みテキストデータ(小説)については、具体的に統計量を抽出し、その分布を確認する試行を行った。具体的には、文長に占める文字数や漢字数、さらに品詞数について、単独での出現を単位とした場合や、前後のペアを単位とした場合のそれぞれ別々に分布の確認を行った。これらの統計量はテキストそのものとは独立にデータベース化した。 本研究では文長の分布そのものが中心的な関心ではなく、その時系列の規則性を解明するのが目的である。そこで抽出した統計量について分布を確認した上で、その時間軸に沿った変化をモデル化することが中心的な課題である。本年度の試行では、時系列の流れについて、これを単純にモデル化するには、伝統的な時系列解析手法は適切ではないことを確認した。文章の長さは平均値や分散が安定しておらず、伝統的な時系列解析を適用するには、もとデータ(原系列)の差分を求める必要がある。ただし、そのような差分に基づく統計量を、自然言語によるテキストの流れと関連付けて解釈するのが難しいことが改めて浮き彫りになった。この点については、国際的な研究でも報告はなく、本研究独自の発見であると言える。そこで、状態空間モデルによって時系列をフィッティングするのが、少なくとも結果を解釈するという観点からは自然と考えられる。最終年度に向けては、状態空間モデルを中心に分析を試みる。状態空間モデルを適用するにあたっての技術的・理論的問題を検討するための関連文献については引き続き取得する。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
分析対象とするテキストデータの収集について、ジャンルの一部のデータベース化がやや遅れている。これは、研究協力者の勤務の都合などによるものだが、遅れている分は、整備が完了したジャンルに対して統計的分析を実行する作業にあてている。その意味で、全体としては研究の進行に問題は生じていない。
|
今後の研究の推進方策 |
ジャンルとして整備が残っているテキスト種のデータベース化を早急に完了した上で、収集した全テキストについて、各種統計量の算出と分布の確認、そして時系列データとしてのモデリングを総合的に行う。文長の統計量に時系列をあてはめるについては、状態空間モデルを適用することで正確なフィッティングができると想定している。この結果によって求められた時系列を統計学的な観点から考察するが、これが、個別テキストの内容的な流れ(昔から言われる起承転結などのメリハリ)と適合することが確認されれば、国際的にも確認されていない成果であり、最終年度は、この適合性の発見を目的として分析を行う。暫定的であっても、相応の成果が得られれば、学会、ないし学会誌などの著作物で報告する。
|