当前位置:首页 > 实用技巧 >

项目反应理论的难度参数(项目反应理论的优点和缺点)

来源:原点资讯(www.yd166.com)时间:2023-11-17 10:57:24作者:YD166手机阅读>>

大规模语言模型(LLM)如 ChatGPT 等已经展现出与人类相媲美的认知能力。为了更加高效且准确地比较不同模型的能力,本文提出了一个自适应测试框架用于 LLM 评估。该框架根据各个被试(模型)的表现动态地调整测试问题的特征,如难度等,为模型“量身定制”一场考试。

本文对六个商业化的大语言模型进行了细粒度的诊断,包括 ChatGPT(OpenAI)、GPT4(OpenAI)、Bard(谷歌)、文心一言(百度)、通义千问(阿里)和星火(讯飞)。从学科知识、数学推理和编程三个方面对它们进行了认知能力排名。这种“千模千测”的方法有可能成为评估大规模语言模型的新范式。

项目反应理论的难度参数,项目反应理论的优点和缺点(1)

论文链接:

http://arxiv.org/abs/2306.10512

项目反应理论的难度参数,项目反应理论的优点和缺点(2)

一、摘要

ChatGPT等大规模语言模型(LLM)已经展现出与人类水平相媲美的认知能力。为了比较不同模型的能力,通常会用各个领域的Benchmark数据集(比如文学、化学、生物学等)进行测试,然后根据传统指标(比如答对率、召回率、F1值)来评估它们的表现。

然而,从认知科学[1]的角度来看,这种评估LLM的方法可能是低效且不准确的。受心理测量学中的计算机自适应测试(CAT)的启发,本文提出了一个用于LLM评估的自适应测试框架:并非简单计算答对率,而是根据各个被试(模型)的表现动态地调整测试问题的特征,如难度等,为模型“量身定制”一场考试。

以下图为例,CAT中的诊断模型CDM会根据被试之前的作答行为(对/错)对其能力进行估计。接着,选题算法(Selection Algorithm)会根据该估计值选择最具信息量或最适合他的下一道题,例如选择难度和被试能力最接近的题目。如此循环往复直到测试结束。相比传统评估方法,该框架能用更少的题目更准确地估计模型的能力[2]。

项目反应理论的难度参数,项目反应理论的优点和缺点(3)

本文对6个商业化的大语言模型:ChatGPT(OpenAI)、GPT4(OpenAI)、Bard(谷歌)、文心一言(百度)、通义千问(阿里)、星火(讯飞)进行细粒度的诊断,并从学科知识、数学推理和编程三个方面对它们进行了认知能力排名。其中GPT4显著优于其他模型,已经达到了人类平均水平的认知能力。本文的诊断报告也发现,ChatGPT表现得像一个"粗心的学生",容易失误,偶尔也会猜测问题的答案。

“千模千测”——这有可能成为评估大规模语言模型的新范式。

二、引言

近几个月来, 大规模语言模型(LLM)以其强大的能力颠覆了人们对语言模型的认知。除了传统的 NLP 任务,大模型在写作、编程、作词作曲等各方面展现出难以置信的类人水平 —— 这仅仅是 LLM 能力的冰山一角。

为了充分评估LLM认知能力水平,一些最初为人类设计的各类专业或学术考试被用来对模型进行评测:

项目反应理论的难度参数,项目反应理论的优点和缺点(4)

栏目热文

工程的要素演化与系统演化的关系(简述工程项目系统构成及相互关系)

工程的要素演化与系统演化的关系(简述工程项目系统构成及相互关系)

光明日报记者 詹媛“提出重大科学问题工程技术难题并判别其优先顺序,是科学发现和技术创新的出发点和动力源,是解决问题、难题...

2023-11-17 11:00:36查看全文 >>

刚度和强度在生活中的应用(强度和刚度的关系论文)

刚度和强度在生活中的应用(强度和刚度的关系论文)

“新款XXX(某车型)大量采用高强度钢,抗扭刚性提高了xx%,保证了出色的碰撞安全性。”这样的描述不知出现在多少车评文稿...

2023-11-17 11:09:49查看全文 >>

工程分析常用的方法哪三种(工程分析的方法包括)

工程分析常用的方法哪三种(工程分析的方法包括)

本次关于“工程分析”进行说明。“工程分析”是指对材料成为产品之前的“工程”进行“分析”。将“加工”和“检查”的过程用“工...

2023-11-17 10:47:29查看全文 >>

举例说明工程项目目标系统的结构(工程项目目标系统的层次包括)

举例说明工程项目目标系统的结构(工程项目目标系统的层次包括)

进度、成本和质量是工程项目管理软件的三大目标,这三大目标之间相互影响,相互作用。在工程建设项目这个多目标系统中,单一地...

2023-11-17 11:05:54查看全文 >>

施工现场怎么放线(施工现场放线方法)

施工现场怎么放线(施工现场放线方法)

建筑工程施工测量放线施工方案准备工作:测量设备准备:施工测量准备工作是保证测量工作全过程顺利进行的重要环节,所用的测量设...

2023-11-17 11:13:07查看全文 >>

工程中的逻辑关系是由什么决定的(工程项目常见的逻辑关系)

工程中的逻辑关系是由什么决定的(工程项目常见的逻辑关系)

题要:尽管实际工作千变万化、问题重重,但工程类合伙人的深层逻辑及基本原则应该明确并统一,这点非常重要。关于工程类合伙人,...

2023-11-17 10:59:11查看全文 >>

项目的区分度和难度的关系(怎样确定项目的区分度)

项目的区分度和难度的关系(怎样确定项目的区分度)

§ 第五节 项目分析 §▲一般来说,测验的项目分析包括定性分析和定量分析。 ▲项目的定性分析包括考虑项目的内容效度、题目...

2023-11-17 11:19:15查看全文 >>

工程应用中的阶跃信号(单位信号阶跃响应怎么解决)

工程应用中的阶跃信号(单位信号阶跃响应怎么解决)

控制论两个核心:信息和反馈控制论与机械工程控制关系:机械工程控制论是研究控制论在机械工程中应用的一门技术学科。控制论发展...

2023-11-17 11:08:32查看全文 >>

工程如何实现限额设计的目标(限额设计目标分解的步骤)

工程如何实现限额设计的目标(限额设计目标分解的步骤)

建筑工程限额设计指标是指在建筑物设计阶段,根据规定或经过合理计算,确定建筑物所占用的用地面积、建筑高度、建筑密度等指标,...

2023-11-17 11:09:27查看全文 >>

小型美容院营业执照怎么办理(小型美容院可以办营业执照吗)

小型美容院营业执照怎么办理(小型美容院可以办营业执照吗)

众所周知,美容行业是一个暴利行业,而且门槛低,只要一间小小的店铺就能开始营业。许多孵化公司,就专门孵化这类小店。每年数以...

2023-11-17 11:18:09查看全文 >>

文档排行