有価証券報告書の「事業の内容」にもとづく業種分類の提案と信頼性の検証
Project/Area Number |
23K01705
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 07100:Accounting-related
|
Research Institution | Chiba University of Commerce |
Principal Investigator |
土屋 和之 千葉商科大学, 商経学部, 教授 (30288013)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2025: ¥130,000 (Direct Cost: ¥100,000、Indirect Cost: ¥30,000)
Fiscal Year 2024: ¥130,000 (Direct Cost: ¥100,000、Indirect Cost: ¥30,000)
Fiscal Year 2023: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
|
Keywords | 業種分類 / 事業の内容 |
Outline of Research at the Start |
本研究は,自然言語処理の手法を用いて,有価証券報告書に記載された「事業の内容」の類似度を計算し,この類似度にもとづいて業種分類を行う.さらに,この業種分類を既存の業種分類と比較し,信頼性の検証を行う. この業種分類は,一定の類似度の企業を集めて業種とするので,あらかじめ設けられた業種に分類する必要はなくなり,事業活動の多角化も反映した業種分類が可能となる.また,「事業の内容」の類似度を距離として表現できるので,「事業の内容」が類似した競合関係にある企業同士の関係を視覚的に表現することが可能となり,企業分析の有用なツールを提供できる.
|
Outline of Annual Research Achievements |
本研究の目的は,有価証券報告書に記載された「事業の内容」について,自然言語処理の手法を用いて,その類似度を計算し,この類似度にもとづいた業種分類を提案し,その信頼性を検証することである.有価証券報告書の「事業の内容」にもとづいて会社を業種に分類するには,「事業の内容」をテキストのデータとして用意し,その中から事業を示す単語を抽出しなければならない. 2023年度はEDINET(金融商品取引法に基づく有価証券報告書等の開示書類に関する電子開示システム)から入手した有価証券報告書のXBRLインスタンスの「事業の内容」について,形態素解析を行い事業の内容を表すキーワードの抽出を進めてきた.当初の計画では事業の内容を適切に表すキーワードを特定し,事業の内容を表すキーワード辞書としてWebページで公開する予定であった. しかし研究の過程で明らかになったのは,事業の内容を表すキーワードの多様性である.そこで単純な形態素解析によるのではなく,キーワード抽出や固有名抽出,公開されている辞書等の利用など,さまざまな手法を単独で,あるいは組み合わせることで,キーワードの抽出を行った. こうして抽出されたキーワードが事業の内容を適切に表しているかどうかを検討するため,試験的にキーワードの類似度を計算,会社を分類する作業を行い,その結果を見て,そのキーワードを見直すという作業を繰り返して,キーワードが適切なものかどうか,キーワードの抽出の手法が適切かどうか検討しているところである. そのため,キーワード辞書の公開には至らなかったが,過去約10年間,約4万5千件の「事業の内容」をコーパスとしてWebページで公開することはできた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2023年度に予定していた事業の内容を表すキーワード辞書の公開はできなかった.しかし,研究実績の概要でも述べたように,現在はキーワードの抽出を行なっており,キーワードが適切なものかどうか,キーワードの抽出の手法が適切かどうか検討しているところである. また,業種分類の信頼性を検証するための財務データはすでに準備し,必要な統計処理は完了している.キーワードが特定されれば,類似度を計算し,業種分類を行い,その業種分類の信頼性を検証することは可能である.キーワードの特定から信頼性の検証までのパイプラインは構築できている. 2024年度は,この結果を踏まえて,有価証券報告書の事業の内容にもとづく業種分類の提案と信頼性の検証として,論文にまとめる計画である.この論文の作成に合わせ可能な限り,抽出されたキーワードが事業の内容を適切に表しているかどうかを検討したい. 事業の内容を表すキーワード辞書の形式についても,代表的な日本語の形態素解析器の辞書の形式に合わせて作成する予定である.キーワードが特定されれば,すぐにキーワード辞書として公開することが可能である. 以上のことから,2023年度に事業の内容を表すキーワード辞書をWebページで公開することはできなかったが,研究はおおむね順調に進展していると考えている.
|
Strategy for Future Research Activity |
事業の内容を表すキーワードの抽出,類似度の計算,業種分類,その信頼性の検証というパイプラインは構築できていることから,キーワードの特定を進め,その信頼性の検証までの結果を2024年度中に論文にまとめる予定である. 2025年度には有価証券報告書の事業の内容にもとづく類似企業検索のためのWebサービスの実装を計画している.2024年度はその準備としてWebサービスのプロトタイプの構築を進めたいと考えている.
|
Report
(1 results)
Research Products
(1 results)