| 研究課題/領域番号 |
24K00079
|
| 研究種目 |
基盤研究(B)
|
| 配分区分 | 基金 |
| 応募区分 | 一般 |
| 審査区分 |
小区分02100:外国語教育関連
|
| 研究機関 | 福島大学 |
研究代表者 |
横内 裕一郎 福島大学, 経済経営学類, 准教授 (40782800)
|
| 研究分担者 |
前田 啓貴 松山大学, 経済学部, 講師 (00964222)
高木 修一 福島大学, 人間発達文化学類, 准教授 (20707773)
徐 キョウ哲 弘前大学, 教育推進機構, 助教 (20886684)
久保田 恵佑 福島県立医科大学, 公私立大学の部局等, 講師 (30888293)
|
| 研究期間 (年度) |
2024-04-01 – 2028-03-31
|
| 研究課題ステータス |
交付 (2024年度)
|
| 配分額 *注記 |
17,810千円 (直接経費: 13,700千円、間接経費: 4,110千円)
2027年度: 4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2026年度: 4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)
2025年度: 2,600千円 (直接経費: 2,000千円、間接経費: 600千円)
2024年度: 6,370千円 (直接経費: 4,900千円、間接経費: 1,470千円)
|
| キーワード | テスティング / 評価者 / 信頼性 / ベイズ統計 / 多相ラッシュモデル / 項目応答理論 / パフォーマンス評価 / 評価者トレーニング |
| 研究開始時の研究の概要 |
英語のスピーキングテストをはじめとする「パフォーマンス評価」を行う際,評価者の評価の厳しさは必ずしも一貫したものではない。評価の一貫性や安定性を示すうえで「信頼性」という用語を用いることが多いが,実際にどのように評価の厳しさが変動しているのかを観察するためには複雑な統計モデルが必要となる。そこで本研究では,統計的知識を持たない方でも容易に評価の一貫性を計測することのできるツールを作成することを第一の目標としている。さらに,そのツールを用いて計測した一貫性の結果を評価者トレーニングの素材として利用することが可能であるかを検討する。
|
| 研究実績の概要 |
研究準備段階で作成していた統計モデルを更新し,3種類のSRM(Single Rater Model)を比較し,どのモデルを適用すべきかについて,国際学会(PROMS 2024)にて発表を行った。モデルそのものについては異議は無かったものの,Rasch modelの理念と今回提案したモデルの哲学が異なることを指摘されたため,今後は本研究で作成したモデルをSRM(Single Rater Model)と呼称し,誤解が生じないよう注意することとした。 上記のモデルうち,3つ目のモデルをベースに,各タイムポイントで評価の厳しさが0に戻る前提を含んだ新規モデルの構築も進行中である。これは,評価が異なる日時に行われる際,1人目の評価が大抵の場合評価の厳しさの基準(ルーブリックの影響は別にあると考えて)となるため,評価を実際に行う場合,この影響を考慮すべきであると考えたためである。本件については2025年度に開催される研究大会等で発表予定である。 また,本研究において使用することを想定しているPDT(Performance Decision Tree)の有効性を論じた論文が,Language Testing in Asia (Yokouchi, 2025) に掲載された。また,そのベースとなる発表2件を日本言語テスト学会にて発表した(横内, 2024; 久保田他, 2024)。そのうち,久保田他(2024)は今後発話プロトコルを取り,評価者の思考と統計分析による評価の厳しさのパターンが合致するかどうかを検証する研究第2段階の核となるルーブリックとなった。
|
| 現在までの達成度 |
現在までの達成度
2: おおむね順調に進展している
理由
本研究におけるベースとなるモデルが機能すること,R上でStanを使って分析を適切に実行し,再現できることを確認したため,研究の第一関門は突破したと考えている。そのうえで実際の評価時に発生しうる「評価の厳しさのリセット」について検討を開始できたのは,今後のモデル構築・更新に大きな影響を与えるものと思われる。 直接本研究に関連する業績として,研究論文1報,学会発表3件を報告できた。今後はこれらの研究をベースとしてモデルの改善を行いつつ,評価時の発話プロトコルの収集と分析を行う準備まで完了している。
|
| 今後の研究の推進方策 |
2025年度は,久保田他(2024)にて開発したルーブリックを用い,これまでに収集済みの英語スピーキングパフォーマンスデータを実験協力者に評価させ,評価のデータを収集するとともに,発話プロトコルのデータを収集する。 まず,評価データを用い,評価の厳しさの変動を検証する。評価者の厳しさ×時間経過の値は,次に挙げるモデルを用いて比較する。(1) MFRM(Linacre, 1989)を用いたバイアス分析,(2) Uto(2022)のモデル,(3) Yokouchi (2024) のモデル3,(4)Yokouchi (2025)の新規モデルの4つを用いる予定である。 続いて,評価時に収録した発話プロトコルを観察し,評価者が自覚した評価の厳しさの変動と,上記の量的分析に基づいた評価の厳しさの変動が合致するかを検証する。 これらの研究結果を受け,さらに分析のためのモデルを修正する必要があると判断した場合はモデルの再構成を行うが,問題がない場合,他のパフォーマンス評価(例.英語ライティング,小論文,採点競技など)におけるデータを収集し,同様に分析が可能であるかを検証したい。
|