数据质量是教育数据治理的着眼点。美国联邦政府及各州的教育管理机构联合学校和地区教育组织机构,通过明确教育数据质量标准,规范数据收集与录入程序,严格审查数据质量,及时使用教育数据资源等程序,实现了教育数据质量管理流程的规范化运行。

1、数据标准:确立数据质量管理基准

构建教育数据标准是教育数据质量管理的基本环节,也是实现教育数据共同理解、诊断教育数据错误的重要依据。美国国家教育统计中心(NCES)致力于提高教育数据质量,通过与各类利益相关者共同努力,最终建立了教育数据共同标准(Common Education Data StandardsCEDS)。

CEDS最初主要被用于反映K-12教育领域中的教育数据标准、名称和定义,随着时间的推移和教育数据工作人员对其的拓展,CEDS的覆盖范围早已扩展到高等教育、早期教育以及劳动力市场等其他领域,其明确了相应领域的教育数据通用名称和定义(California Department of Education2018)。CEDS的确立有益于提高教育机构收集和储存教育数据的透明度,有助于将本机构的教育数据名称、定义与其他机构进行参照比较,以便快速地侦测出异常数据。

美国加利福尼亚州教育局(California Department of EducationCDE)为强化数据质量管理,于20161月开始实施“教育数据治理计划”(Educational Data Governance ProgramEDGO),并把开发教育数据标准列为该计划的优先事项。

截至20181月,CDE已经为858个教育数据元素和102个教育数据代码集成功建立了数据标准(California Department of Education2018),并大力号倡导育领域利益相关者(如教育数据收集者、教育研究人员以及一线教育工作者等)的积极合作,促使其在数据标准实施和数据库管理方面达成共识,共同关注教育数据质量管理,实现对教育数据的共同理解。

2、数据收集:确保教育数据源头质量

数据收集是保障数据质量的重要前提,教育数据收集过程的规范性更是直接左右着教育数据质量的优劣。教育数据收集工具种类繁多,包括传统的纸质表单和电子形式的数据表格等。为有效规避人工数据收集所造成的误差,美国联邦教育部更主张采用自动化的数据收集模式,并以电子形式进行教育数据的传输。但无论采取何种收集工具和收集模式,美国联邦教育部都严格要求各教育机构在数据收集的过程中秉承以下五项基本原则(U.S. Department of Education2006)。

一是相关性原则。教育机构应当在收集教育数据之前对拟收集的教育数据进行严格审核,以确定哪些是必须的,哪些是过时或冗余的,进而使最终收集到的教育数据能够适用于既定或潜在的数据报告需求。

二是唯一性原则。即所要收集的教育数据是联邦教育部和其他机构尚未收集或获得的,从而确保了数据收集的价值和意义,避免了数据冗余、数据孤岛和资源浪费。

三是清晰性原则。教育数据收集过程应清晰直接地说明对每个数据输入的期望,清楚地定义每个数据的内涵及意义,详细记录数据收集过程中所丢失的和还未收集到的数据元素或数据单元。

四是有效性。所有教育数据收集过程中的相关表格都应遵循相应的数据业务规则,并确保离散数据元素的响应率达到100%

五是易用性原则。确保数据收集过程尽可能简单,并利用数据收集工具追踪数据维护人员的日常工作。

除美国联邦政府外,美国各州也积极推进教育数据质量建设,重视教育数据收集规范。如美国肯塔基州强调教育数据收集的内容时效性和相关性,要求该州的数据专员时刻关注社会发展动态和教育研究需求,及时更新教育数据标准,以实现教育数据价值的最大化。

在进行教育数据收集之前,相关教育数据的收集主体还须认真填写并提交肯塔基州教育局所印发的教育数据收集请求表,其内容涉及支持主体、数据收集范围、理由、实施日期、相关法律规定以及数据收集风险分析等(Kentucky Department of Education2015)。

3、数据输入:明晰各类人员数据职责

教育数据输入的规范性和正确性对于数据质量的影响不言而喻,其决定着数据资源能否得以正常使用。在学校等教育机构中,每天都在产生海量的教育数据,教育机构除了采用智慧传感器和数字化教育设备采集教育数据外,往往还需要相关人员人工输入人口统计学信息、出勤信息和学生成绩等教育数据,涉及的主体不仅包括教师、校长,也包括学校董事会成员、数据协调员、技术支持人员等。

对于不同主体而言,所承担的数据责任不一,在教育数据输入过程中所扮演的角色也存在一定差异。

200411月,美国国家教育统计论坛(National Forum on Education Statistics)在《构建数据质量文化的论坛指南》中针对各主体提出了数据录入职责。

一是学校教师应及时关注教育数据报告的需求和截止日期,确保有充裕的时间以便能够正确地输入学生的数据信息,并对输入的数据信息负责。

二是学校校长要对学校教职员工所输入教育系统的数据信息进行定期抽查,确保教育数据的正确、有效和完整,并向地区数据工作人员提供改进数据收集程序和数据录入模式的建议。此外,还要积极组织开展相关的专业性数据质量管理讨论,并确保校内负责教育数据录入和数据安全的人员能够积极参与,以便及时发现需要改善和更新的相关程序,进而全面提升教育数据质量,规避教育数据安全隐患。

三是数据协调员和技术支持人员需要与数据录入人员积极沟通合作,开发更高效的数据编辑系统和数据输入程序。

四是完善教育数据输入环境,要求学校应为教育数据录入留出固定时间,定位教育数据输入区域,避免外界干扰,保障教育数据质量(National Forum for Education Statistics2004)。

4、数据审查:守护教育数据质量门槛

严格执行数据审查程序是确保教育数据质量的关键。美国教育数据治理委员会(EDGB)制定了系统的教育数据检测流程

一是要求教育数据提交者必须提供标准化的数据报告和数据验证说明,并做好教育数据质量的基础性建设。

二是在数据的提交过程中,利用联邦教育部开发的自动化教育数据编辑检查程序,以防止格式不正确或不准确的教育数据被录入。该编辑检查程序还可检测所提交数据的及时性和完整性,并在教育数据的提交过程中精准识别错误数据(如格式和验证错误、提交错误、匹配错误等),同时检验数据报告是否一致、是否遗漏、是否错误以及是否符合预期。一旦提交的数据未通过编辑检查程序的审查,数据提交者将及时收到相关警告或错误数据提示。

三是安排专门的数据管理员(数据专员)依照数据管理规范再次审核已提交的教育数据,以进一步发现教育数据系统中存在的数据异常。此外,数据专员还会评估相应的数据是否具备公平性和准确性,是否足以支撑全面的数据分析和制定良好的数据报告。数据专员一旦识别出数据异常,便会优先对其进行处理,并向数据提交者进行及时反馈,要求其详细解释数据异常的原因并及时解决可能存在的数据质量问题(ED Facts Data Governance Board2018)。

通过系统的教育数据质量审查,教育数据资源的准确性、完整性、有效性得到有效保证。美国联邦教育部强调同时运用人工审查和智能化检测两种方式,发挥智能化审查程序的严密性,提高数据审查的速度和效率,同时通过数据专员的人工审查弥补智能化检测的错漏,及时甄别数据异常,完善数据质量保障机制。

5、数据挖掘:强化教育数据异常监测

201210月,美国联邦教育部正式发布《通过教育数据挖掘和学习分析促进教与学》报告。该报告指出教育数据挖掘(Educational Data MiningEDM)主要是通过利用数理统计、机器学习和数据挖掘等方法和技术,分析和处理所收集到的教育大数据,进而预测未来的学习趋势并指导教育实践(U.S. Department of Education 2012)。其中,趋势分析、用户知识建模、行为建模以及经验建模等是教育数据挖掘的主要运用领域。

以趋势分析为例,加州高等教育委员会(California Postsecondary Education CommissionCPEC)利用数据挖掘技术为加州的高等教育机构提供了一个趋势分析系统。该系统不仅可以检索各种教育数据库,了解实时的教育发展趋势,还能用于发现潜在的数据异常,识别出连续几年数据报告中存在的显著数值差异。

此外,加州高等教育委员会,采取了一系列的措施以监测异常数据

首先,通过设置明确的“限度”来识别同一项数据在连续两年之间数值变化在10%50%间的数据行。

其次,对超出“限度”不同百分比的数据行,用不同的颜色标记:超过“限度”3倍的用黄色标记,超过2倍的用绿色标记,超过1倍的用蓝色标记。若单个数据单元与周围连续的数据单元差异较大,则该数据单元将被标记为红色(California Postsecondary Education Commission2011)。

教育数据趋势分析能够有效检测出异常的数据记录,识别出潜在的教育数据错误,使相关教育机构和教育工作人员能够及时剔除错误的教育数据。

6、数据使用:推动教育数据常态管理

美国国家教育统计中心(NCES)指出,教育数据质量与教育数据的有效使用息息相关。如若教育数据工作人员将教育数据收集和数据报告看作是权威教育机构的任务,那么他们就会缺乏动力去完成额外的教育数据质量管理工作。

因此,为有效激发数据工作人员的工作动力,使其时刻保有提高教育数据质量的意愿和数据质量危机意识,NCES提倡营造教育数据使用文化,并要求美国联邦政府及各州的教育管理部门确保将教育数据使用权限下放至学校的办公室和教室,以拓宽教育数据的访问范围,主动暴露教育数据存在的质量问题(National Center for Education Statistics2011b)。

譬如,学校的教育管理者需经常访问各个教育数据库,认真查看本学校与所在州类似学校的数据对比状况,尤其关注数据分析结果所显示出的巨大异常。学校教师也可实时查看教育数据,依托海量教育数据制定科学的教学计划和个性化的教学策略。各州教育机构亦可将所提交的海量教育数据转化为更加清晰明了的教育报告,如与其他学校和地区的相关教育数据比较报告,进而使教育数据得到有效使用,以促进教育数据质量管理。

当教育数据在实践中被广泛使用后,教育数据工作人员的责任意识便会增强,也就会更加重视教育数据收集过程中的质量问题。通过强调教育数据使用文化,以及拓宽教育数据的使用权限,不仅可以使海量教育数据得到充分利用,全面发挥教育数据资源的巨大价值,同时也能够及时发现教育数据采集和审查过程中忽略掉的数据质量问题,进而反思教育数据质量管理中的薄弱环节,明晰数据工作人员的质量管理责任,不断完善教育数据质量管理的各个流程。

因此,教育数据的使用无疑是对教育数据质量的有效验证,有益于推动教育数据质量的常态化管理。

(作者:王正青,博士,教授,博士生导师,西南大学教育学部国际与比较教育研究所;但金凤,硕士研究生,西南大学教育学部。基金项目:国家社科基金一般项目“西部贫困地区县级政府提升县域义务教育均衡发展治理能力的路径优化研究”(15BGL163)。来源:《现代远程教育研究》。本文系节选。)

声明:本网站转载文章出于非商业性的教育和科研目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请立即联系我们,我们会予以更改或删除相关文章,保证您的权利。