研究課題/領域番号 |
16K04022
|
研究機関 | 関西学院大学 |
研究代表者 |
阪 智香 関西学院大学, 商学部, 教授 (10309403)
|
研究分担者 |
地道 正行 関西学院大学, 商学部, 教授 (60243200)
|
研究期間 (年度) |
2016-04-01 – 2020-03-31
|
キーワード | 探索的財務データ解析 / 付加価値分配 / 租税回避 / データ可視化 |
研究実績の概要 |
2018年度の研究成果は、次の4つである。 (1)データセット(DS-Osiris-2017)の前処理とデータ解析環境への読み込み(データラングリング)、そしてデータ解析の結果が再現可能となるかを検討した。具体的には、結果を得るための工程をUnix環境(主にmakeコマンドを利用)で自動実行することによって、データの前処理、データラングリング、データ解析、モデル選択、モデル評価、さらに文書作成までの全工程を再現可能なものとして生成できるかについて検証した。結果として、再現性が確保されることに成功した。 (2)Bureau van Dijk社のデータベースOrbis から抽出したデータセットを、連結(Consolidated)主体のものと非連結(Un-consolidated)主体のものに区分し、データの前処理を実行した。さらにデータラングリングを行うことによって、データ解析ができる形式に変換した。これらの工程を再現可能とするために、makeコマンドを利用することによって、自動実行することも検証した。 (3)企業活動の実態解明を行うために、(a)企業の富の偏在と国際・国内格差、(b)付加価値の分配、(c)企業の租税回避についての考察結果を、論文としてまとめ、会議発表した。 (4)付加価値の分配に焦点を当て、企業が生み出した付加価値が、様々なステークホルダーにどのように配分されているかを確認するために、世界の全上場企業の付加価値分配の実態と動向を可視化した。その結果、過去25年間で、企業は従業員への分配を減少させ、利益を増加させていること、特にアメリカ企業ではそれが顕著であることが明らかとなった。一方で、ドイツやフランスでは、従業員への高い分配割合を維持していることもわかった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2018年度は、Orbisデータ等の前処理とラングリングから始め、実際にデータを可視化し、企業活動の実態解明を行った。研究の進捗状況を、時系列的に記載すると次のとおりとなる。 2018年4月:データセット(DS-Osiris-2017)に対する探索的財務ビッグデータ解析を、データ(ファイル)操作、データ可視化、統計モデリング、モデル選択、モデル評価、再現可能研究の全行程の観点から実行することを検討した。 2018年5月:上場企業のデータセット(DS-Osiris-C-2018(連結決算)、DS-Osiris-U-2018)を用いて検証した。 2018年6月:データセット(DS-Orbis-C-2018)を用いて検証した。 2018年7-8月:データセット(DS-Orbis-U-2018)を用いて検証した。 2018年9月:データセット(DS-Orbis-C-2018)のFENNEL環境におけるクラスター化 (Hadoop、Hive)を実施した。 2018年10月: 探索的財務ビッグデータ解析(データ可視化、統計モデリング、モデル選択、モデル評価、動的文書生成、再現可能研究)を実施した。 2018年11~12月:データ全体を再確認し、データ提供母体であるインフォメーションプロバイダの情報を追加したデータ再抽出を依頼した。データセット(DS-Orbis-C、U-2018)の前処理と、FENNEL環境下での並列化を検証した。 2019年1~3月:再採取抽出されたデータセット(DS-Orbis-C、U-2018)の前処理を並列化し、FENNEL環境におけるクラスター化を検証した。データセット(DS-Orbis-C、U-2018)の可視化による検証を実施した。
|
今後の研究の推進方策 |
(1)時間的な推移を考慮したモデリングについては、経時的な観点から利用できるデータ量や、欠損情報などのデータの品質についての詳細な検討が必要であることがわかったため、引き続き2019年度に有効なモデリングを検討する予定である。 (2)実際にデータを可視化し検証する過程で、精緻に分析するためにはデータの追加が必要であることがわかり、改めてデータセットを入手した。この新しいデータセットに対して、2018年11月から検討を始めた並列化処理を、GNU parallelを利用して実験的に試みた結果、約10分の1の時間で前処理が完了できるという結果を得た。これは、ビッグデータ分析で重要な速度(velocity)の観点から注目すべき成果が得られたことを意味し、2019年度はこの並列化処理についてさらに詳細な検討を行う。 (3)前処理を行ったデータセットのファイルを、データ解析ソフトウェアRに読み込む段階、すなわちデータラングリングを行う工程を、R、Spark、Hadoop、Hive環境とGPGPU環境を連動させて高速化するというテーマについては、Sparkの最新のJava環境への対応の遅れから実現できていない。この課題に対して、2019年度は、データベースサーバPostgreSQLをGPGPU環境下で利用可能にするPG-Stromを用いることによって、高速化の実現を試みる。 (4)2018年度は規模の大きなデータセットのデータ処理の再現性とスピードを改善させることに注力したため、時空間の観点からのダイナミックでインタラクティブなデータ可視化に本格的に取り組む段階に至らなかった。ただし、小規模データセットに対しては、データ解析環境RにおけるgoogleVis、Shinyパッケージを利用してダイナミックにデータの構造を可視化することに成功しており、2019年度にはこの手法を用いて可視化に取り組む。
|
次年度使用額が生じた理由 |
(1)本研究では、非上場企業を含む約2000万社の財務データOrbisの分析も予定していたが、Orbisデータの予備的分析を行う中で、データを追加する必要が生じたため、新たに指標を追加した新データセットを2019年2月に入手した。この新データセットに対して、2019年度は、GNU parallel を利用して並列処理を行う。この並列化処理に必要な物品費・人件費として当該研究費を使用する。 (2)時間的な推移を考慮したモデリングについては、中間的な結果は出ているものの、経時的な観点から利用できるデータ量や、欠損情報などのデータの品質についての詳細な検討が必要であることが分かったため、引き続き有効なモデリングを検討する予定である。この検討に必要な図書費・(専門家のアドバイスを得るための)謝金等として当該研究費を使用する。 (3)今年度は規模の大きなデータセットのデータ処理の再現性とスピード改善に注力したため、時空間の観点からのダイナミックかつインタラクティブなデータ可視化に本格的に取り組む段階に至らなかった。ただし、小規模データセットについて、データ解析環境RにおけるgoogleVis、Shinyパッケージを利用してダイナミックにデータの構造を可視化することには成功しており、2019年度は大規模データの可視化に取り組む。このためのソフトウェア購入等のために当該研究費を使用する。
|