2021 Fiscal Year Research-status Report
Measurement of entrepreneurship using natural language processing and application to the improvement of education program
Project/Area Number |
20K20799
|
Research Institution | Tohoku University |
Principal Investigator |
伊藤 彰則 東北大学, 工学研究科, 教授 (70232428)
|
Co-Investigator(Kenkyū-buntansha) |
石田 修一 東北大学, 工学研究科, 教授 (00326539)
武田 浩太郎 東北大学, 工学研究科, 講師 (80727214)
|
Project Period (FY) |
2020-07-30 – 2023-03-31
|
Keywords | アントレプレナー教育 / アンケート / 個人的アントレプレナー志向 / 自然言語処理 |
Outline of Annual Research Achievements |
今年度は、さらなるデータ収集と、関連技術であるユーザーの性格推定の研究を行った。 データ収集としては、アントレプレナーシップ関係の講義からアンケートの収集、およびこれらの受講生からアントレプレナーシップに関する作文の収集を行った。「汎用的技能ワークショップ」「アントレプレナー入門塾」「TUSGのハンズオン講義・メンタリング」国際戦略リーダー講座」「ベンチャービジネス論」から30名程度のアンケートを回収したが、作文については後日依頼する形だったので、収集できた分は3名のみであった。 十分なデータ収集に時間がかかることから、アントレプレナーシップ推定に類似のタスクとして、性格の推定実験を行った。Myers-Briggs Personality Type Dataset(英語)約8000文を利用し、フォーラムへの投稿文からMBTI性格指標ラベルの推定を試みた。ナイーブベイズ法(NB)、ロジスティック回帰(LR)、多層パーセプトロン(MLP)、BiLSTMの4種類の識別器を用い、学習データ量と識別精度の関係を調査した。その結果、BiLSTMはデータ量が多いときは高精度だがデータ量が少なくなると精度が悪くなること、中程度のデータ量(~1000文)ではMLPが比較的良いことが分かった。タスクは外向性・内向性判定の2クラス識別であるが、F1-scoreは52~70%程度であった。 また、データセットを日本語に翻訳して実験をした。翻訳にはDeepLを用いた。その結果、やや精度が低下したものの、言語による大きい差はないことが分かった。制度低下の原因は十分分析できていないが、少なくとも一部は機械翻訳の精度に起因すると考えられる。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
前年度に続き、データ収集が思うように進んでいない。収集可能な時期が年2回であることに加え、作文データの収集は任意参加であるため、データが集まらなかった。 一方、自然言語処理による推定に関しては、比較的良い結果が得られている。今回対象とした性格推定は、アントレプレナーシップ推定と類似のタスクであると考えられるため、どの程度の制度が得られるか、またどの程度のデータ量が必要かについて、重要な知見が得られている。
|
Strategy for Future Research Activity |
データの収集を進めることが最重要課題である。すでに今年度の授業に関してはデータ収集の許可を教員にもらっている。アンケートとともに、作文データについても計画的に収集を行い、最終的なアントレプレナーシップ推定を行っていく予定である。
|
Causes of Carryover |
新型コロナウイルス感染症の影響により、予算申請時に想定していた会議出席などの旅費の利用がなくなったこと、および雇用した学術研究員の都合によって1日当たりの労働時間が想定より短くなり人件費が当初予定よりも少なくなったため、次年度使用額が生じた。次年度使用額は人件費および謝金に使用予定である。
|