当前位置:首页 > 实用技巧 >

项目反应理论的难度参数(项目反应理论的优点和缺点)

来源:原点资讯(www.yd166.com)时间:2023-11-17 10:57:24作者:YD166手机阅读>>

图14 学科知识水平对比:ChatGPT(蓝) vs 学生(红)

  1. 数学推理水平:ChatGPT 的数学推理能力与人类的数学推理能力仍有相当大的差距:在“概率与统计”、“排列与组合”以及“几何”的问题的上尤其差;在“函数”、“方程和不等式”方面的表现相对好一些。因此,对于方程、函数这种有固定解题套路的基本计算问题,ChatGPT 是合格的。但面对现实场景中的推理问题[7](例如,概率和统计、排列组合)显然还差得远。

项目反应理论的难度参数,项目反应理论的优点和缺点(17)

图15 数学推理能力对比:ChatGPT(蓝色) vs 学生(红色)

5.2 LLM排名

本文在国内外6个有代表性的商业化LLM进行了CAT测试,并同时与不同水平的人类学生进行比较:

项目反应理论的难度参数,项目反应理论的优点和缺点(18)

表1 不同 LLM 及不同水平学生能力诊断结果

数学推理:高水平高中生 > GPT4 ≈ 中等水平高中生 > 星火 > Bard > 文心 > ChatGPT > 千问

编程:高水平大学生 > GPT4 > 中等水平大学生 > ChatGPT > 星火 > 文心 > 千问 > Bard

学科知识:GPT4 > Bard > ChatGPT ≈ 高水平大学生 > 中等水平大学生 > 星火 > 千问 > 文心

GPT4 在学科知识、数学推理、编程水平上明显优于其他 LLM。其学科知识水平几乎在每个知识点上都超过了高水平大学生(Top20%)。

每个 LLM 都有其自己的“特长”。例如编程中,GPT4 擅长“动态规划”和“数学问题”;ChatGPT 更擅长“搜索”问题;星火平均编程水平低于 GPT4/ChatGPT,但是用编程解决数学问题是它的强项。因此,尽管这些 LLM 没有公布它们预训练所用数据的配比和具体细节,本文有理由推断,ChatGPT/GPT4 可能在训练阶段使用了更多的编程相关数据,而星火则使用了更多的数学学科数据。

大模型要实现媲美人类的数学推理仍有很长的路要走。根据CAT诊断的结果,即使最强的GPT4,其推理能力也接近于中等水平的高中生。毕竟LLM的本质还是数据驱动的概率生成模型,并非像人类那样去思考和推理。因此,基于或模仿人类的认知结构[9],或许是未来提升LLM推理能力的“捷径”。

六、总结

大语言模型正逐步改变人们日常的工作和生活方式。越来越多的人尝试探索 LLM 能力边界,让它们完成传统NLP时代难以想象的事情,如生成代码、制作PPT、作诗作曲等等。因此,如何科学有效地诊断并分析LLM的能力显得愈发重要。本文尝试引入原本用于人类的认知能力评估框架——计算机自适应测试,来对 LLM 进行评估。在相同的评估精度下,CAT需要的测试数据更少,极大地降低了 对LLM 评估的人工成本和计算开销。

原论文由于中国科学技术大学计算机学院BASE(http://base.ustc.edu.cn/)课题组撰写。该课题组聚焦于将大数据和人工智能技术应用于教育科学,包括:教育资源理解、认知诊断与学生建模、个性化教育服务等。本文希望CAT这一科学的评估范式可以促进 LLM 的研究与迭代,欢迎交流探讨!

参考文献

[1] Liu Q. Towards a New Generation of Cognitive Diagnosis[C]//IJCAI. 2021: 4961-4964.

[2] Zhuang Y, Liu Q, Huang Z, et al. A Robust Computerized Adaptive Testing Approach in Educational Question Retrieval[C]//Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022: 416-426.

[3] Sheldon M Ross. A first course in probability. Pearson, 2014.

[4] Zhuang Y, Liu Q, Huang Z, et al. Fully Adaptive Framework: Neural Computerized Adaptive Testing for Online Education[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2022, 36(4): 4734-4742.

[5] C. Wang, D. J. Weiss, and Z. Shang. Variable-length stopping rules for multidimensional computerized adaptive testing. Psychometrika, 2018.

[6] OpenAI. Gpt-4 technical report, 2023.

[7] Wim J Van der Linden and Cees AW Glas. Elements of adaptive testing, volume 10. Springer, 2010.

[8] Lin X, Huang Z, Zhao H, et al. Learning Relation-Enhanced Hierarchical Solver for Math Word Problems[J]. IEEE Transactions on Neural Networks and Learning Systems, 2023.

[9] Liu J, Huang Z, Lin X, et al. A cognitive solver with autonomously knowledge learning for reasoning mathematical answers[C]//2022 IEEE International Conference on Data Mining (ICDM). IEEE, 2022: 269-278.

作者:庄严

来源:公众号【PaperWeekly】

Illustration by IconScout Store from IconScout

-The End-

项目反应理论的难度参数,项目反应理论的优点和缺点(19)

扫码观看!

本周上新!

项目反应理论的难度参数,项目反应理论的优点和缺点(20)

栏目热文

工程的要素演化与系统演化的关系(简述工程项目系统构成及相互关系)

工程的要素演化与系统演化的关系(简述工程项目系统构成及相互关系)

光明日报记者 詹媛“提出重大科学问题工程技术难题并判别其优先顺序,是科学发现和技术创新的出发点和动力源,是解决问题、难题...

2023-11-17 11:00:36查看全文 >>

刚度和强度在生活中的应用(强度和刚度的关系论文)

刚度和强度在生活中的应用(强度和刚度的关系论文)

“新款XXX(某车型)大量采用高强度钢,抗扭刚性提高了xx%,保证了出色的碰撞安全性。”这样的描述不知出现在多少车评文稿...

2023-11-17 11:09:49查看全文 >>

工程分析常用的方法哪三种(工程分析的方法包括)

工程分析常用的方法哪三种(工程分析的方法包括)

本次关于“工程分析”进行说明。“工程分析”是指对材料成为产品之前的“工程”进行“分析”。将“加工”和“检查”的过程用“工...

2023-11-17 10:47:29查看全文 >>

举例说明工程项目目标系统的结构(工程项目目标系统的层次包括)

举例说明工程项目目标系统的结构(工程项目目标系统的层次包括)

进度、成本和质量是工程项目管理软件的三大目标,这三大目标之间相互影响,相互作用。在工程建设项目这个多目标系统中,单一地...

2023-11-17 11:05:54查看全文 >>

施工现场怎么放线(施工现场放线方法)

施工现场怎么放线(施工现场放线方法)

建筑工程施工测量放线施工方案准备工作:测量设备准备:施工测量准备工作是保证测量工作全过程顺利进行的重要环节,所用的测量设...

2023-11-17 11:13:07查看全文 >>

工程中的逻辑关系是由什么决定的(工程项目常见的逻辑关系)

工程中的逻辑关系是由什么决定的(工程项目常见的逻辑关系)

题要:尽管实际工作千变万化、问题重重,但工程类合伙人的深层逻辑及基本原则应该明确并统一,这点非常重要。关于工程类合伙人,...

2023-11-17 10:59:11查看全文 >>

项目的区分度和难度的关系(怎样确定项目的区分度)

项目的区分度和难度的关系(怎样确定项目的区分度)

§ 第五节 项目分析 §▲一般来说,测验的项目分析包括定性分析和定量分析。 ▲项目的定性分析包括考虑项目的内容效度、题目...

2023-11-17 11:19:15查看全文 >>

工程应用中的阶跃信号(单位信号阶跃响应怎么解决)

工程应用中的阶跃信号(单位信号阶跃响应怎么解决)

控制论两个核心:信息和反馈控制论与机械工程控制关系:机械工程控制论是研究控制论在机械工程中应用的一门技术学科。控制论发展...

2023-11-17 11:08:32查看全文 >>

工程如何实现限额设计的目标(限额设计目标分解的步骤)

工程如何实现限额设计的目标(限额设计目标分解的步骤)

建筑工程限额设计指标是指在建筑物设计阶段,根据规定或经过合理计算,确定建筑物所占用的用地面积、建筑高度、建筑密度等指标,...

2023-11-17 11:09:27查看全文 >>

小型美容院营业执照怎么办理(小型美容院可以办营业执照吗)

小型美容院营业执照怎么办理(小型美容院可以办营业执照吗)

众所周知,美容行业是一个暴利行业,而且门槛低,只要一间小小的店铺就能开始营业。许多孵化公司,就专门孵化这类小店。每年数以...

2023-11-17 11:18:09查看全文 >>

文档排行