2015 Fiscal Year Research-status Report
Project/Area Number |
25380620
|
Research Institution | Hosei University |
Principal Investigator |
坂上 学 法政大学, 経営学部, 教授 (50264792)
|
Project Period (FY) |
2013-04-01 – 2018-03-31
|
Keywords | 冪乗分布 / 財務データ / 解析手法 / テキストマイニング |
Outline of Annual Research Achievements |
本研究の第3年度となる平成27年度は、前年に引き続き財務データの収集および整備が中心的な作業となった。財務データの収集にあたり、主たる財務データの入手元であるEDINETより入手可能なXBRLデータの範囲が大幅に拡大し、大量のテキストデータが入手可能となったことにより、分析手法もそれに合わせて範囲を拡大することにした。具体的には、当初の研究計画ではフラクタル分析やEOF解析のような定量的な分析手法についてのみを行う予定であったが、昨年度よりテキストマイニングといった定性的な分析手法を組み合わせることにしたというものである。 これは次世代EDINETの稼働により有価証券報告書全体のXBRL化が進んだことによるもたらされたものであるが、次世代EDINETには従来とは大きく異なる特徴が2つほどあった。第1にはディメンションと呼ばれる多次元データを取り扱うための仕組みが導入されたことであり、第2にはInlineXBRLとよばれるHTML形式のデータとXBRL形式のデータを混在させる仕組みが導入されたことである。今年度はもっぱらそれらの新データ形式に対応することに研究のほとんどを費やすことになった。 ディメンションによって記述されたデータを取り扱うためには、コンテキスト情報に記述された「メンバー」と呼ばれる横軸項目の定義方法の理解が欠かせず、それらを使ってディメンジョナル・データを抽出・収集することになるため、多くの時間を割くことになった。またテキストデータの抽出には、InlineXBRLの仕組みを理解しなければならず、XBRLデータに含まれる大量のHTMLタグ情報を除去・整形したうえでデータを抽出・収集しなければならず、その処理のためのスクリプトを作成しなければならないなどの対応に追われることになった。 なお、これらの作業を通じて得られた知見の一部については、『証券アナリストジャーナル』(Vol. 54 No. 1, 2016)において成果発表がなされている。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
第3年度においては、すでにデータ整備のフェーズを終え、本格的な解析に取り掛かる予定であったが、研究実績の概要にも書いたように、取り扱うデータとして大量のテキストデータを含めたことにより、思いのほかデータの整備に時間がかかってしまった。結果として、本年度において、さまざまな解析手法を用いた本格的な分析に着手することができなかった。 しかしながらデータの整備はこのような解析手法の探求においては、最も優先され、かつ慎重に行わなければならないものであるため、やむを得ないことであったとの認識である。
|
Strategy for Future Research Activity |
本年において財務データの整備はかなり進められたので、ある意味、さまざまな解析手法を試行錯誤するための環境は整ったともいえる。残された期間は、データ収集ではなくデータ分析により多くの時間を割くことで、財務情報間においてまだ未知の関係を探索的に分析していくことにしたい。
|