研究課題/領域番号 |
23K01705
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分07100:会計学関連
|
研究機関 | 千葉商科大学 |
研究代表者 |
土屋 和之 千葉商科大学, 商経学部, 教授 (30288013)
|
研究期間 (年度) |
2023-04-01 – 2026-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
1,170千円 (直接経費: 900千円、間接経費: 270千円)
2025年度: 130千円 (直接経費: 100千円、間接経費: 30千円)
2024年度: 130千円 (直接経費: 100千円、間接経費: 30千円)
2023年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
|
キーワード | 業種分類 / 事業の内容 |
研究開始時の研究の概要 |
本研究は,自然言語処理の手法を用いて,有価証券報告書に記載された「事業の内容」の類似度を計算し,この類似度にもとづいて業種分類を行う.さらに,この業種分類を既存の業種分類と比較し,信頼性の検証を行う. この業種分類は,一定の類似度の企業を集めて業種とするので,あらかじめ設けられた業種に分類する必要はなくなり,事業活動の多角化も反映した業種分類が可能となる.また,「事業の内容」の類似度を距離として表現できるので,「事業の内容」が類似した競合関係にある企業同士の関係を視覚的に表現することが可能となり,企業分析の有用なツールを提供できる.
|
研究実績の概要 |
本研究の目的は,有価証券報告書に記載された「事業の内容」について,自然言語処理の手法を用いて,その類似度を計算し,この類似度にもとづいた業種分類を提案し,その信頼性を検証することである.有価証券報告書の「事業の内容」にもとづいて会社を業種に分類するには,「事業の内容」をテキストのデータとして用意し,その中から事業を示す単語を抽出しなければならない. 2023年度はEDINET(金融商品取引法に基づく有価証券報告書等の開示書類に関する電子開示システム)から入手した有価証券報告書のXBRLインスタンスの「事業の内容」について,形態素解析を行い事業の内容を表すキーワードの抽出を進めてきた.当初の計画では事業の内容を適切に表すキーワードを特定し,事業の内容を表すキーワード辞書としてWebページで公開する予定であった. しかし研究の過程で明らかになったのは,事業の内容を表すキーワードの多様性である.そこで単純な形態素解析によるのではなく,キーワード抽出や固有名抽出,公開されている辞書等の利用など,さまざまな手法を単独で,あるいは組み合わせることで,キーワードの抽出を行った. こうして抽出されたキーワードが事業の内容を適切に表しているかどうかを検討するため,試験的にキーワードの類似度を計算,会社を分類する作業を行い,その結果を見て,そのキーワードを見直すという作業を繰り返して,キーワードが適切なものかどうか,キーワードの抽出の手法が適切かどうか検討しているところである. そのため,キーワード辞書の公開には至らなかったが,過去約10年間,約4万5千件の「事業の内容」をコーパスとしてWebページで公開することはできた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2023年度に予定していた事業の内容を表すキーワード辞書の公開はできなかった.しかし,研究実績の概要でも述べたように,現在はキーワードの抽出を行なっており,キーワードが適切なものかどうか,キーワードの抽出の手法が適切かどうか検討しているところである. また,業種分類の信頼性を検証するための財務データはすでに準備し,必要な統計処理は完了している.キーワードが特定されれば,類似度を計算し,業種分類を行い,その業種分類の信頼性を検証することは可能である.キーワードの特定から信頼性の検証までのパイプラインは構築できている. 2024年度は,この結果を踏まえて,有価証券報告書の事業の内容にもとづく業種分類の提案と信頼性の検証として,論文にまとめる計画である.この論文の作成に合わせ可能な限り,抽出されたキーワードが事業の内容を適切に表しているかどうかを検討したい. 事業の内容を表すキーワード辞書の形式についても,代表的な日本語の形態素解析器の辞書の形式に合わせて作成する予定である.キーワードが特定されれば,すぐにキーワード辞書として公開することが可能である. 以上のことから,2023年度に事業の内容を表すキーワード辞書をWebページで公開することはできなかったが,研究はおおむね順調に進展していると考えている.
|
今後の研究の推進方策 |
事業の内容を表すキーワードの抽出,類似度の計算,業種分類,その信頼性の検証というパイプラインは構築できていることから,キーワードの特定を進め,その信頼性の検証までの結果を2024年度中に論文にまとめる予定である. 2025年度には有価証券報告書の事業の内容にもとづく類似企業検索のためのWebサービスの実装を計画している.2024年度はその準備としてWebサービスのプロトタイプの構築を進めたいと考えている.
|