其中,t 是属于第 l 讲的标记 t (l) 集合中的标记,N 为标记 t 的类型,D 为标记 t 或讲座的持续时间,I () 是指示函数。
2. 具体任务分析
2.1 量化参与度(RQ1)
本文关注的参与度是一种隐性用户反馈。本文用来量化参与度的主要指标是标准化参与 / 观察时间(Median of Normalised Engagement/Watch Time,MNET)的中位数,MNET 被认为是参与教育材料的黄金标准 [8]。为了使 MNET 标签在 [0;1] 范围内,将 MNET 的上限设置为 1。作者在最初的数据分析中发现,VLN 数据集中的 MNET 值遵循对数正态分布,在这种分布中,大多数用户通常在较小的时间阈值后会放弃观看讲座。假设这可能是因为需要一些时间来决定内容是否与学习者相关。超过这个阈值的用户看起来更投入,因此离开率显著降低。为了解决这个问题本文使用 Log 变换来转换接合信号。最终标签,即对数中位数标准化参与时间(Log Median Normalised Engagement Time,LMNET)计算如下:
2.2 机器学习模型(RQ2)
为了学习根据参与度对视频讲座进行排名,本文使用逐点排序模型来评估效果。回归算法在实值空间中预测目标变量,这使得它们能够根据预测创建观测值的全局排名。此外,还使用了核函数评估了参与度预测的性能。引入核函数,能够有效捕获数据中的非线性特征。本文使用径向基函数(Radial Basis Function,RBF)。本文使用的回归算法包括岭回归(Ridge Regression,RR)和支持向量回归(Support Vector Regression ,SVR)。
此外,本文还评估了两种算法(常规算法、RBF 核)、核岭回归(KRR)和核支持向量回归(KSVR)的核化版本的性能。基于这些评估,能够了解模式中是否存在非线性特征,从而有利于完成预测任务。在上面讨论的所有四个模型中,本文使用标准缩放,因为这些模型并不是尺度不变的。L2 正则化用于防止过度拟合和多重共线性。由于在先前的工作中,基于集合技术的方法也表现良好,本文也使用随机森林回归(RF)方法来评估其预测能力。该模型还能够捕捉非线性模式。
2.3 特征重要性分析(RQ4)
本文使用 SHapley 加法解释(SHapley Additive exPlanations,SHAP)来进行特征重要性分析。SHAP 是一个模型无关的框架,它量化了特征对模型预测的影响。SHAP 通过为每个预测的每个特征计算一个形状值,估算了复杂模型族的特征重要性 [9]。通过将预测数据点的所有形状值绘制在形状摘要图中,可以确定每个特征对预测结果的影响。通过计算每个特征 f 的平均绝对形状(Mean Absolute SHAP,MAS)可以对特征影响进行定量分析。具体地,MAS 计算如下:
其中,N 是观察次数。
3. 实验分析
本文通过对两个特征集进行 5 次交叉验证来完成对不同机器学习模型的评估。不同机器学习模型在不同参与量化方法下的性能见表 1。添加视频特定功能时的性能见表 2。本文的实验是使用 scikitlearn、textatistic 和 SHAP 的 Python 包实现的。
Python 代码和所使用的数据库已公开:https://github.com/sahanbull/context-agnostic-engagement
表 1. 基于 5 倍交叉验证和交叉模态特征的具有标准误差的参与预测模型的成对精度(Pair.)和 Spearman 秩相关系数(SROCC)
3.1 RQ1 任务实验结果:分析参与度、浏览次数和平均星级评分之间的关系
本文所使用的 VLN 数据源中也有考虑不同的讲座课程内容子集的平均星级评分(显式反馈)。值得注意的是,我们只能获得平均星级评级,而不是每个观察员的个人评级或测量数量。图 1 中给出了平均星级 vs MNET 的结果和浏览次数。SROCC 接近于零,这主要是因为讲座数量多、收视率高,但参与度低,而且观看人数也不多。作者测试了所考虑的 4 个不同版本的参与度(原始版本、清洁版本、标准化版本和比较版本)的相关性,但都取得了相似的结果,SROCC 接近于零。作者从图 1 得出结论:浏览量、评分和参与度确实代表了非常不同的信息。