当前位置:首页 > 实用技巧 >

项目反应理论的难度参数(项目反应理论的优点和缺点)

来源:原点资讯(www.yd166.com)时间:2023-11-17 10:57:24作者:YD166手机阅读>>

图10 自适应选择和随机选择的能力估计误差

自适应性:为验证CAT能否根据模型能力自适应地选择适合的问题,本文用 Jaccard 相似度来衡量任意两个模型所作答的题目集之间的相似性:

项目反应理论的难度参数,项目反应理论的优点和缺点(13)

图11 试卷的Jaccard相似度

评测可靠性:为了验证用于人类的CAT框架是否可以用于 LLM,本文研究了它的可靠性(SE 曲线[5])。在CAT中,SE值通常是指能力估计 的标准差,它反映了能力估计的精度:

项目反应理论的难度参数,项目反应理论的优点和缺点(14)

图12 ChatGPT 和学生的 SE 曲线

为探究ChatGPT与人类的相似性,本文在学生的测试过程中添加了猜测和失误因素:

(1) 猜测因素:即使被试没有掌握,仍有概率答猜对;

(2) 失误因素:即使掌握了该题,仍有小概率失误答错。

因此,Guess10% 表示正确性标签从错误变为正确的概率为10%,而 Slip10% 表示标签从正确变为错误的概率为10%。有趣的是,ChatGPT 的 SE 曲线非常接近 Guess=10%、Slip=30% 的学生(红色)。由此,本文推断 ChatGPT 更像一个“粗心的学生”,容易失误 (30%) 并且偶尔会去猜答案 (10%)。

五、诊断报告

本文选择了国内外较有代表性的6个instruction-tuned LLM 进行评测:ChatGPT、GPT4、谷歌Bard、百度文心一言(ERNIEBOT)、阿里通义千问(QianWen)、讯飞星火(Spark)。并将他们与高水平(High-Ability)、中等水平(Mid-Level)的人类学生进行比较。

数据集:本文选择学科知识、数学推理、编程三个领域为例对 LLM 进行细粒度评测,分别对应三个数据集:MOOC、MATH和CODIA。

  • 学科知识水平(MOOC):MOOC是目前最知名的在线学习平台之一,本数据集收集了1.5万大学生对计算机科学中不同知识概念(如人工智能、计算机系统等)的回答记录。

  • 数学推理水平(MATH):该数据通过智学网收集,其中包含了超过10万名高中生的数学考试数据.

  • 编程水平(CODIA):该数据由中国科学技术大学自主研发的在线编程平台CODIA( https://code.bdaa.pro/ )。提供,其中包含了来自120所大学的大学生的编程提交数据。

5.1 ChatGPT VS 人类

本文以ChatGPT(蓝色)为例对其从上述三个方面进行高效诊断,并和高水平学生(红色)进行比较:

  1. 编程水平:尽管 ChatGPT 在官方报告和海量用户case中已经展示出其惊人的编程水平,但它并非全能,并不擅长所有类型的问题。本文使用 CODIA 平台对 ChatGPT 的编程能力中“动态编规划和贪心算法”、“搜索”、“数学问题”、“数据结构”、“树和图论”进行评估。ChatGPT 表现最佳的是“搜索”、“动态规划和贪心算法”。它在这些类型的问题上超过高水平大学生。然而,“数据结构”、“树和图论”是其编程能力上的短板。因此,下次让 ChatGPT 写代码时,可以避免这些类型;而如果你遇到关于动态规划的问题,则可以放心交给 ChatGPT。

项目反应理论的难度参数,项目反应理论的优点和缺点(15)

图13 编程水平对比:ChatGPT(蓝) vs 学生(红)

  1. 学科知识水平:如下图,ChatGPT 在“算法”和“机器学习”这两个知识点上的能力水平显著高于高水平学生。然而,它在编程语言方面相对较弱,这似乎与人们对其的认知不太相符。为了探索原因,本文在下图右侧展示了一个关于编程语言的例子。这是一道非常基础的问题,但是 ChatGPT 却答错了,类似的例子在ChatGPT的考试中并不罕见。这说明它在掌握和理解编程语言的一些基础概念方面并不准确。而结合它在 CODIA 上惊人的编码水平(上图),本文有理由相信:ChatGPT更像是一个 "实干家",而不是一个 "书呆子"。

项目反应理论的难度参数,项目反应理论的优点和缺点(16)

栏目热文

工程的要素演化与系统演化的关系(简述工程项目系统构成及相互关系)

工程的要素演化与系统演化的关系(简述工程项目系统构成及相互关系)

光明日报记者 詹媛“提出重大科学问题工程技术难题并判别其优先顺序,是科学发现和技术创新的出发点和动力源,是解决问题、难题...

2023-11-17 11:00:36查看全文 >>

刚度和强度在生活中的应用(强度和刚度的关系论文)

刚度和强度在生活中的应用(强度和刚度的关系论文)

“新款XXX(某车型)大量采用高强度钢,抗扭刚性提高了xx%,保证了出色的碰撞安全性。”这样的描述不知出现在多少车评文稿...

2023-11-17 11:09:49查看全文 >>

工程分析常用的方法哪三种(工程分析的方法包括)

工程分析常用的方法哪三种(工程分析的方法包括)

本次关于“工程分析”进行说明。“工程分析”是指对材料成为产品之前的“工程”进行“分析”。将“加工”和“检查”的过程用“工...

2023-11-17 10:47:29查看全文 >>

举例说明工程项目目标系统的结构(工程项目目标系统的层次包括)

举例说明工程项目目标系统的结构(工程项目目标系统的层次包括)

进度、成本和质量是工程项目管理软件的三大目标,这三大目标之间相互影响,相互作用。在工程建设项目这个多目标系统中,单一地...

2023-11-17 11:05:54查看全文 >>

施工现场怎么放线(施工现场放线方法)

施工现场怎么放线(施工现场放线方法)

建筑工程施工测量放线施工方案准备工作:测量设备准备:施工测量准备工作是保证测量工作全过程顺利进行的重要环节,所用的测量设...

2023-11-17 11:13:07查看全文 >>

工程中的逻辑关系是由什么决定的(工程项目常见的逻辑关系)

工程中的逻辑关系是由什么决定的(工程项目常见的逻辑关系)

题要:尽管实际工作千变万化、问题重重,但工程类合伙人的深层逻辑及基本原则应该明确并统一,这点非常重要。关于工程类合伙人,...

2023-11-17 10:59:11查看全文 >>

项目的区分度和难度的关系(怎样确定项目的区分度)

项目的区分度和难度的关系(怎样确定项目的区分度)

§ 第五节 项目分析 §▲一般来说,测验的项目分析包括定性分析和定量分析。 ▲项目的定性分析包括考虑项目的内容效度、题目...

2023-11-17 11:19:15查看全文 >>

工程应用中的阶跃信号(单位信号阶跃响应怎么解决)

工程应用中的阶跃信号(单位信号阶跃响应怎么解决)

控制论两个核心:信息和反馈控制论与机械工程控制关系:机械工程控制论是研究控制论在机械工程中应用的一门技术学科。控制论发展...

2023-11-17 11:08:32查看全文 >>

工程如何实现限额设计的目标(限额设计目标分解的步骤)

工程如何实现限额设计的目标(限额设计目标分解的步骤)

建筑工程限额设计指标是指在建筑物设计阶段,根据规定或经过合理计算,确定建筑物所占用的用地面积、建筑高度、建筑密度等指标,...

2023-11-17 11:09:27查看全文 >>

小型美容院营业执照怎么办理(小型美容院可以办营业执照吗)

小型美容院营业执照怎么办理(小型美容院可以办营业执照吗)

众所周知,美容行业是一个暴利行业,而且门槛低,只要一间小小的店铺就能开始营业。许多孵化公司,就专门孵化这类小店。每年数以...

2023-11-17 11:18:09查看全文 >>

文档排行