2017 Fiscal Year Research-status Report
Time Series Analysis of Sentence Length
Project/Area Number |
17K02732
|
Research Institution | The University of Tokushima |
Principal Investigator |
石田 基広 徳島大学, 大学院社会産業理工学研究部(社会総合科学域), 教授 (40232318)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | テキストマイニング / 計量言語学 |
Outline of Annual Research Achievements |
本年度の目標の1つは本研究遂行の基本データを収集することであった。このため、和書として小説およびその研究書を中心に10冊を購入し、これを裁断しスキャンにかけ、OCR化してデジタルデータとした。この際、研究協力者2名を採用した。また著作権の失効した作家の小説約50本を青空文庫からダウンロードし、本研究用のデータとして加工する作業を行った。これらの作業は想定したどおりに遂行できたと考える。 そして本年度の目標の2つ目として、整備したデータの一部を使って、各種統計量を抽出する作業を行った。具体的にはテキストデータを文単位で分割し、さらに各文章を文字、単語、節に分解したデータを作成した。続いて、このそれぞれを最小単位として頻度を測る作業を行った。実際に作業を行ってみると、文・単語・節単位へ分割するアルゴリズムを統一することは難しく、現段階ではいずれの単位に分割するにもヒューリスティックに決めるほかはなかった。しかし再現可能な研究成果を目指すためには、このアルゴリズムを確定させる必要がある。この点は次年度以降の課題とすることを決めた。 データの最小単位の決定に不確定性が残っているが、この段階で、文長のそれぞれの単位を入力として、その時系列の確認を行った。具体的にはトレンドの有無、平均や分散の同一性、季節性の有無などを確認した。これらの統計的指標を抽出するのは難しくないが、試行的な分析結果から分かることは、こうした統計量は個々のデータ、また分析単位の選択に強く依存するということであった。このこと自体は、本研究の遂行前から予測されたことで、特に意外性は無いが、念のため、再確認をシステマティックに遂行できたことは1つの成果であった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度の主目的は研究データの整備であったので、この点においては当初の目的を100%達成することができた。ただし、データの加工処理にやや手間取ったため、データの予備的分析に割く時間がやや少なくなってしまった。 とはいえ、データの最小単位ごとに集計、分布を確認するなどの作業は遂行できたため、翌年度、詳細な分析アプローチを実行するための準備を整えることはできたと考える。
|
Strategy for Future Research Activity |
本年度も引き続きデータの収集を行うが、その前に昨年度収集したデータの性質を再度確認し、本研究を遂行するのに十分な範囲のデータが揃っているかをまず確認する。そのため昨年度に引き続き、すでに収集したデータの統計的性質を確認する作業を継続して行う。これを1,2ヶ月の間に完了し、結果を確認の上、改めて収集すべきデータの選定を行う。本年度についてもデータの収集には研究協力者に依頼する。 新規データの収集と並行して、既存のデータの分析を行う。本年度は、最近の時系列分析で注目されている状態空間モデルを文長の分布に適用する。状態空間モデルは、従来の時系列分析とは異なり、データの背後に潜在的な要因を仮定することができる。また推定手法についてもベイズの方法を援用している。このため、文長のように曖昧で不安定なデータから、その時間軸に沿った規則性を発見するのに有効だと考えている。 ただし、前年度の試行からも明確になっていることだが、文長の基本単位の設定に分析アプローチも結果も大きく左右される。ただし、現段階ではどのような選択肢の組み合わせが妥当かつ合理的であるかは分からない。そこで、本年度は、コンピュータ上ですべて組み合わせを総当りで検討するシミュレーションを行う。本年度後半はこれらのシミュレーションの結果を個別に検討することに時間を割く予定である。 なお、当初の予定では、一時的な成果を本年度中に学会などに発表する予定であったが、より慎重な分析に時間を割くために、本年度は科研費での出張は見送る予定である。
|