2021 年度実施状況報告書

自然言語処理を用いたアントレプレナーシップの測定と教育プログラム改善への展開

研究課題

研究課題/領域番号	20K20799
研究機関	東北大学
研究代表者	伊藤彰則東北大学, 工学研究科, 教授 (70232428)
研究分担者	石田修一東北大学, 工学研究科, 教授 (00326539) 武田浩太郎東北大学, 工学研究科, 講師 (80727214)
研究期間 (年度)	2020-07-30 – 2023-03-31
キーワード	アントレプレナー教育 / アンケート / 個人的アントレプレナー志向 / 自然言語処理
研究実績の概要	今年度は、さらなるデータ収集と、関連技術であるユーザーの性格推定の研究を行った。データ収集としては、アントレプレナーシップ関係の講義からアンケートの収集、およびこれらの受講生からアントレプレナーシップに関する作文の収集を行った。「汎用的技能ワークショップ」「アントレプレナー入門塾」「TUSGのハンズオン講義・メンタリング」国際戦略リーダー講座」「ベンチャービジネス論」から30名程度のアンケートを回収したが、作文については後日依頼する形だったので、収集できた分は3名のみであった。十分なデータ収集に時間がかかることから、アントレプレナーシップ推定に類似のタスクとして、性格の推定実験を行った。Myers-Briggs Personality Type Dataset（英語）約8000文を利用し、フォーラムへの投稿文からMBTI性格指標ラベルの推定を試みた。ナイーブベイズ法(NB)、ロジスティック回帰(LR)、多層パーセプトロン(MLP)、BiLSTMの4種類の識別器を用い、学習データ量と識別精度の関係を調査した。その結果、BiLSTMはデータ量が多いときは高精度だがデータ量が少なくなると精度が悪くなること、中程度のデータ量（～1000文）ではMLPが比較的良いことが分かった。タスクは外向性・内向性判定の2クラス識別であるが、F1-scoreは52～70%程度であった。また、データセットを日本語に翻訳して実験をした。翻訳にはDeepLを用いた。その結果、やや精度が低下したものの、言語による大きい差はないことが分かった。制度低下の原因は十分分析できていないが、少なくとも一部は機械翻訳の精度に起因すると考えられる。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由前年度に続き、データ収集が思うように進んでいない。収集可能な時期が年2回であることに加え、作文データの収集は任意参加であるため、データが集まらなかった。一方、自然言語処理による推定に関しては、比較的良い結果が得られている。今回対象とした性格推定は、アントレプレナーシップ推定と類似のタスクであると考えられるため、どの程度の制度が得られるか、またどの程度のデータ量が必要かについて、重要な知見が得られている。
今後の研究の推進方策	データの収集を進めることが最重要課題である。すでに今年度の授業に関してはデータ収集の許可を教員にもらっている。アンケートとともに、作文データについても計画的に収集を行い、最終的なアントレプレナーシップ推定を行っていく予定である。
次年度使用額が生じた理由	新型コロナウイルス感染症の影響により、予算申請時に想定していた会議出席などの旅費の利用がなくなったこと、および雇用した学術研究員の都合によって１日当たりの労働時間が想定より短くなり人件費が当初予定よりも少なくなったため、次年度使用額が生じた。次年度使用額は人件費および謝金に使用予定である。

研究成果
(1件)

すべて学会発表 (1件)

[学会発表] 言語からの性格推定におけるモデルとデータ量の影響に関する研究2022
- 著者名/発表者名
  深澤佑樹，伊藤彰則，能勢隆
- 学会等名
  音響工学研究会