大数据培训
美国上市大数据培训机构

400-111-8989

热门课程

大数据分析及其在常模研发中的应用

  • 发布:大数据培训
  • 来源:大数据教程
  • 时间:2018-06-11 16:58

杨志明 / 湖南师范大学外国语学院教授,必优(BEO)考试研究院院长,ETS Assessments(Beijing)顾问,(美国)教育考评局(ERB)原技术总监,香港中文大学博士。

杨志明:大数据分析及其在常模研发中的应用

【摘 要】大数据分析是一种以现代信息技术为基础的高级分析方法,其主要特征是数据的数量巨大,数据的结构、来源和形式复杂多样,数据的产生和获取过程常与实际工作相伴等。在简要探讨大数据分析的六类技术和八大服务企业、考察大数据分析技术在SAT-I常模研发方面的应用历史后,发现仅仅通过大数据分析很有可能导致常模错误或常模漂移等问题。为此,建议大数据分析技术必须与测评理论等同时使用,以保障测验常模的质量。

【关键词】大数据;常模;测量理论

大数据(big data)分析是一种超越传统数据分析手段、以现代信息技术为基础的数据处理方法,其主要特征是数据的数量巨大,数据的结构、来源和形式复杂多样,数据的产生和获取过程常与实际工作相伴等。该方法目前正被许多高科技巨头所看重,并在商业领域和许多管理部门发挥着越来越重要的作用。不过,这种分析方法的缺点也是十分明显的。比如,数据的有效性问题常常困扰着用户,隐藏在数据中的许多重大信息并不显而易见,不恰当的数据整理常常导致许多互相矛盾的推论,传统的统计分析方法往往因为模型与数据的拟合性较差而不能被直接使用,等等。此外,一些高科技企业虽然拥有强大的大数据分析能力,但因为缺乏现代教育与心理测量理论与技术的有力支持,他们常常得出许多错误的或不恰当的测评结果。例如,一些正在广为使用的“题库”,仅仅使用了大数据技术,却没有常模和缺乏等值技术支持,这些“题库”就基本不合格。本文以美国高考SAT-I的常模研发历史为例,讨论大数据分析在心理与教育测评中的应用情况,期待能把大数据分析技术应用得更加合理。

一、大数据分析概述

随着人工智能(artificial intelligence,AI)技术的突破性进展、手机和电脑等移动客户端的广泛普及、社交媒体平台的方便快捷,以及互联网行业的兴旺发达,形式复杂、来源多样的海量数据每时每刻都在产生,因此,如何利用好这些大数据一直是许多企业界和科技界人士追求的目标。什么是大数据分析?按照IBM公司的定义,大数据分析是一种针对容量巨大和多种多样数据的高级分析技术。其基本特征和分析手段简述如下。

1大数据分析的基本特征

大数据分析的基本特征是“3V”,即大容量(high volume)、高速度(high velocity)和形式来源的多样性(high variety)。也有人主张“5V”特征,即在“3V”基础上添加了不一致性(variability)和失真性(veracity)两个特征。

具体来说,容量(volume)指的是数据产生和存储的数量。其大小决定着数据的价值或潜在意义(potential insight),也决定着一个数据是否可以被称之为大数据的标准。通常,大数据的容量可以是几万亿字节(terabytes,TB)到上万亿GB(zettabytes)不等。

多样性(variety)指的是数据的结构、类型与来源的多样性特点。通常,大数据可以是结构化的、半结构化的或者无结构的,其形式可以是文字的、视频音频的、图形的、数据的等。数据的结构、类型和特点决定着数据处理的质量和有效性,其来源可以是机器的传感器(sensors)、机器设备本身(devices)、视频或音频信号(video/audio)、网络平台、程序运行的工作日志文件(log files)、数据传输应用(transactional applications)、互联网和社交媒体活动记录等。

速度(velocity)指的是大数据的实时性特点,即大数据通常是伴随着事件的发生而产生的,是某个生产加工或服务过程的自然结果或副产品。这个特性也决定了大数据特别适合用来追踪和改进工作流程和服务效果等方面。

不一致性(Variability)指的是大数据可能存在着数据前后不一致甚至互相矛盾等方面的问题。这种问题常常会阻碍工作的正常运行或造成管理上的困难。

失真性(Veracity)指的是数据获取的质量可能千差万别,而数据质量的高低会直接关系到数据分析的精准性等。

显然,具有上述“5V”特征的大数据已经无法使用传统的方法来及时获取、储存、管理和处理了,因此迫切需要探索新的大数据分析技术。

2大数据的分析技术

大数据分析的技术主要包括:文本分析(text analytics)、机器学习(machine learning)、预测分析(predictive analytics)、数据挖掘(data mining)、统计分析(statistics)和自然语言加工处理(natural language processing),等等。具体来说,大数据分析包含着以下六个基本方面。

(1)数据的可视化处理(analytic visualizations)

无论是专业用户还是普通用户,数据的可视化是最基本的要求之一。许多企业开发的大数据分析平台,如EMC Greenplum的统一分析平台(UAP)、IBM的BigInsights软件、Informatic研制的HParser、亚马逊的MapReduce等系统,都在数据的可视化方面具有强大的功能。

(2)数据挖掘的算法( data mining algorithms)

数据挖掘主要包括:异常数据的甄别(anomaly detection)、变量间关系的搜寻、聚类分析(clustering)、数据归类(classification)、回归分析(regression)、数据综合(summarization)、数据分割、孤立点分析等。这些算法不仅要处理大数据的量,也要处理大数据的速度。

(3)预测分析的能力(predictive analytic capabilities)

研究者可以通过相关分析、回归分析等手段对数据的变化趋势进行模拟研究和预测分析,其效果取决于数据的准确性、有效性,模型与数据的拟合程度等。

(4)语义引擎的使用(semantic engines)

通常,半结构化和非结构化数据的多样性往往会给数据分析带来很大的挑战,因此需要一系列的工具去解析、提取和分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息,其中涉及到较为复杂的自然语言处理过程。

(5)数据的质量及其管理(data quality and master data management)

通过标准化的流程和工具对数据进行管理,不仅可以保证数据的质量,而且可以控制一个预先定义好的数据分析结果的质量。其中,不同形式、不同来源数据的管理和质量控制十分重要。

(6)数据存储或数据仓库(data warehouse)

数据仓库是为了便于数据整理、数据存取、数据分析,以及通过多维分析和多角度展示数据,按特定模式进行存储所建立的关系型数据库。这个数据仓库的构建是所有大数据分析的关键和基础,它承担着数据整合、数据抽取、转换和加载、查询和访问等任务,为联机数据分析和数据挖掘提供数据平台。

3大数据分析的平台或系统概述

围绕大数据分析的六项工作任务,企业界和科技界等在大数据分析方面做出了许多有益的探索,开发出了许多数据分析平台或产品。其中,Hadoop被认为是一种较好的大数据处理平台,EMC、IBM、Informatica、Microsoft以及Oracle都在用它。

具体而言,EMC Greenplum的统一分析平台(Unified Analytic Platform, UAP)是一款单一软件平台,数据团队和分析团队可以在该平台上无缝地共享信息、协作分析,没必要在不同的“孤岛”上工作,或者在不同的“孤岛”之间转移数据。

IBM基于智慧云企业(Smart Cloud Enterprise)架构上的InfoSphere BigInsights软件可以分析数据库里的结构化数据和非结构化数据,使决策者能够迅速将洞察(insights)转化为行动。其中,InfoSphere Streams软件侧重于处理正在发生的实时数据流(streaming data)信息,InfoSphere BigInsights软件侧重于处理事件结束后储存在数据库内的数据(persistent data)。

Informatic研制的HParser通过与MapReduce的整合,可以灵活高效地处理Hadoop里面的任何文件格式,包括日志、文档、二进制数据或分层次式数据(hierarchical data),快速提取视频信息。

惠普收购的Vertica能提供高效数据存储和快速查询的列存储数据库实时分析平台,通过支持大规模并行处理(massive parallel processing,MPP)的扩展性,使得Vertica为高端数字营销、电子商务客户(AOL、Twitter、 Groupon)分析处理的数据达到PB级别。

甲骨文的大数据机(Big Data Appliance)是一个软件硬件集成系统,包括Cloudera的Hadoop系统管理软件和支持服务Apache Hadoop 和Cloudera Manager,内含Exadata、Exalogic和 Exalytics In-Memory Machine内容。

微软的SQL Server R2 并行数据仓库(Parallel Data Warehouse,PDW),可以帮助客户扩展部署数百TB级别数据的分析解决方案。

亚马逊的MapReduce是一项能够迅速扩展的Web服务,运行在亚马逊弹性计算云(Amazon EC2)和亚马逊简单存储服务(Amazon S3)上,面对数据密集型任务,如互联网索引、数据挖掘、日志文件分析、机器学习、金融分析、科学模拟和生物信息学研究,用户需要多大容量,亚马逊就立即就能配置到多大容量。此外,用户还可以使用Karmasphere Analyst的可视化工作区在MapReduce上分析数据并提取结果文件,以便在数据库或者微软Excel或Tableau等工具中使用。

企业级数据仓库(EDW)的领导者Teradata通过收购Aster Data ,增强了其高级分析和管理各种非结构化数据领域的能力。其中,Teradata擅长处理数据仓库(data warehouse),Aster擅长数据搜寻,Hadoop擅长数据存储,三者的结合使得EDW在行业中占有一席之地。

二、大数据分析在SAT-I常模研发中的应用

测验常模指的是一种以考生总体的一般表现水平为参照点的分数表达系统。其表现形式通常是试卷原始分数与量表分数(scaled score)或百分位等级(percentile rank)或其他分数之间的转换关系。这种转换关系一般是以总体的某个代表性样本(常模样本)的数据为基础,运用现代测量学理论和方法建立起来的,其目的是使得考试的量表分数具有某个有意义的零点(参照点)和单位,并符合某种理论分布。通过常模,考生可以很容易地了解到自己在相应群体中的相对位置,比如,自己的水平高于同类人群中的百分数等。

美国高考SAT-I主要测量的是高中学生的言语思维能力(verbal reasoning, SAT-V)和数学思维能力(Math reasoning,SAT-M),其分数报告和解读都是以测验常模为依据的,其常模的研发、检测和调整的历史就是一个典型的大数据分析案例。

1常模次次变化的大数据分析

有研究指出,SAT-I最早施测于1926年,当时的常模是每年一变的。其基本假设是全体考生的知识和能力水平接近正态分布(normal distribution),量表分数完全取决于全体考生卷面的原始分(X)的均值(M)和标准差(S)。也就是说,考生每次考试的标准分数可以通过公式(1)和公式(2)获得均值为500、标准差为100的标准分数或量表分数(简称500/100常模):

Z=(X-M)/SD ………… (1)

scaled score=500+100 z …………(2)

其中,平均值M也可以换成Mdn或Mo,具体换算方法需要根据数据分布的特性来定。不过,根据正态分布的特点可知,标准分数z的正常范围为(-3,+3)或者(-4,+4),每个分值对应着一个固定的含义,即全体考生当中不超过该考生的人数的百分比。比如,标准分数为0表示其成绩超过全体考生的50%,标准分数为1表示全体考生中有84.1%的人成绩不如他,标准分数为2表示全体考生中有97.7%的人不如其成绩好,标准分数为-1表示全体考生中有15.9%的人不如其成绩好,等等。具体对应关系如图1所示。

大数据分析及其在常模研发中的应用

图1 标准分数(z)及其对应的百分比等分数之间的对应关系

由于z分数不太容易理解,尤其是分数为负数的情况令人费解,所以,在不改变分数性质的前提下,SAT-I把z值进行了如公式(2)的线性转换处理。通过这个转换方法,每个量表分数都具有明确的参照点(总体平均值)、等距的单位(总体标准差)和确定的分数范围(200~800),并具有具体的含义。比如,量表分600分表明某人的能力水平高于其全体同批次考生平均水平一个标准差,即同批次考生中有84.1%的人不如他的水平高;量表分400分表明某人的能力水平低于其全体同批次考生平均水平一个标准差,即同批次考生中有15.9%的人不如他的水平高,等等。

在1926年到1939年期间的20次考试中,考生每次考试的分数都是按照公式(1)和公式(2)计算的(中国广东省曾经使用过的高考标准分就采用这种计算方法,广东省当年的分数范围是100~900)。令人遗憾的是,这种方法在1938年推行“一年两考”时出现了问题。因为试卷难度无法完全相同,参加两次考试的考试群体也不尽相同,因此根据每次实际参加考试的群体的原始分数直接计算出来的标准分并不可以直接比较。这就说明,根据每次考试所有数据计算的大数据分析结果并不恰当,需要探寻一种新的方法。

2常模与等值相结合的大数据分析

为了解决不同批次考试之间测验分数不可直接进行比较的问题,专家们尝试了常模与等值相结合的大数据分析方法,其具体做法如下。

在1940年,SAT-V首先根据四月份的考试数据设定了(500/100)常模,当年六月的考试分数并没有按公式(1)和公式(2)重新计算,而是通过共同题等值的方法被转换为四月份常模所设定的度量系统之上。到1941年,SAT-V根据四月份测试的结果再次重新设定了(500/100)常模,并通过共同题等值的方法把当年六月的测试结果转换到了四月的常模系统,实现了测验等值。特别需要指出的是,SAT-V在1941年根据四月份考生的数据建设好常模之后,直到1990年都没有根据公式(1)和公式(2)重新设定常模。专家们所做的仅仅是通过共同题等值的方法,把期间几十年、几百次考试的分数都转换到了1941年四月的常模之上,而没有进行过任何直接使用公式(1)和公式(2)重新标定测验常模的工作。

与此类似,SAT-M首先把1942年四月的测试链接到了SAT-V的1941年四月常模,然后通过共同题等值的方法,把六月的SAT-M结果链接到了四月的SAT-M结果,实现了测验等值。从此,所有新测验都被等值到1942年常模之上,一直延续到了1990年,期间没有重新设定过SAT-M常模。

3常模漂移的大数据分析

自1941年设定SAT-V常模开始,SAT-I两个部分(SAT-V和SAT-M)的分数报告都是通过测验等值实现的。但是,由于等值误差的存在以及考生总体的变化,SAT-V和SAT-M的常模出现了漂移现象。于是Dorans等人收集了参加1988年至1990年之间的35个SAT-I版本共1,052,000考生的真实数据并进行了分析。该样本被称为1990年参照样本,包括所有1990年高中毕业生在其高中三年级和四年级时期参加SAT-V和SAT-M考试的成绩。结果发现,1941年的SAT-I常模发生了明显的漂移现象(图2)。

大数据分析及其在常模研发中的应用

图2 1990年参照样本使用1941年SAT-V和SAT-M常模所得分数分布

由图2可知,SAT-V和SAT-M的分数分布已经远离理想的分数分布了。其中,就SAT-V部分而言,400分以下的人数比例为42%,400~590分之间的比例为51%,590分以上的比例为7%。就SAT-M部分而言,400分以下的人数比例为29%,400~590分之间的比例为53%,590分以上的比例为18%。这与最初设定的(500/100)原始常模相差甚远,出现了常模度量体系严重漂移的问题。

4常模调整的大数据分析

为了解决常模漂移的问题,Dorans等人利用1990年数据重新设定了SAT-V和SAT-M常模(均值为950,标准差为10,分数范围为920~980),使得其得分分布表现为图3所示。

大数据分析及其在常模研发中的应用

图3 根据1990年参照样本重新设定SAT-V和SAT-M常模后的分数分布

由图3可知,根据1990年参照样本所设定的SAT-V和SAT-M新常模不仅具有良好的正态分布特征,解决了1941年常模所造成的常模漂移问题,而且反映了1990年考生总体的实际表现。图4是1990年样本在新旧常模上所得分数分布的直接比较,其中所反映的是1990年常模所导出的量表分数的分布更为合理。

大数据分析及其在常模研发中的应用

图4 1990年参照样本在SAT-I新旧常模上的分数分布比较

为了验证1990年常模的合理性,Dorans还分别利用1990年参照样本中的性别等比较了1990年常模与1941年常模之间的差异(图5和图6所示)。

大数据分析及其在常模研发中的应用

图5 1990年男性参照样本在SAT-I新旧常模上的分数分布比较

大数据分析及其在常模研发中的应用

图6 1990年女性参照样本在SAT-I新旧常模上的分数分布比较

无论是图5还是图6都表明,1990年常模所导出的量表分数的分布更为理想。Dorans还同时针对美国的白人群体、黑人群体、西班牙裔群体和亚裔群体逐一进行了1990年常模与1941年常模的比较,发现除了亚裔群体的结果(图7)不太理想,其他所有种族的大数据使用1990年常模所导出的量表分数的分布都与图5图6的形态非常类似,说明新常模的质量更好。

大数据分析及其在常模研发中的应用

图7 1990年亚裔样本SAT-I在1941年(上)和1990年(下)常模上的分数分布

图7表明,即使是亚裔群体,除了表现出一贯的数理逻辑(SAT-M)测试得高分的人群比例较高的特征,新常模的导出分数的分布也要优于1941年常模。

5各种数据分析下常模质量的讨论

从SAT-I 的常模研发历史可知,同样是大数据分析,1941年以前的常模基本是不合格的,因为其方法导致每次考试所得量表分数或标准分数都不在同一个度量系统之上,不同批次考试的成绩无法进行优劣比较,也不能确定考生水平是在提高还是在下降。

1941年设定常模之后,通过引入测验等值的概念和方法,常模变成了一个稳定的参照标准,每次新考试所得的分数都可以通过测验等值的办法实现新旧测验成绩之间的直接比较。这是考试历史上的一个划时代的贡献。

但是,随着时代的进步,考生总体逐渐发生了变化,一个使用了几十年的常模必然会出现一些不合理的后果。比如,到1990年,若仍然使用1941年常模,则会发现SAT-V上的量表分均值为420分,而SAT-M上的量表分均值为470分。即SAT-V上的均值420分相当于SAT-M上的均值470分,彼此之间被时间“漂移”了整整50分。此外,SAT-V上的10%百分位280分对应着SAT-M上的10%百分位310分(漂移30分),SAT-V上的90%百分位570分对应着SAT-M的90%百分位650分(漂移80分),等等(见图2和图3),这表明基于大数据分析的1941年常模需要“与时俱进”。于是便有了1990年常模的研发。

从图3到图7可知,1990年常模的质量比1941年常模的质量要高得多。究其原因,一是1990年常模所用的样本更贴近1990年的考生总体情况而且数据量巨大;二是在用大数据分析方法研发1990年常模时,研究团队同时遵守了7条新的常模研发准则。这些准则是:(1)常模所设定的量表(分数度量系统)的中心必须是或接近常模参照群体的分数均值或中位数;(2)常模参照样本的分数分布必须是单峰分布,而且其中心必须是或接近常模量表的中点;(3)常模参照样本的分数分布必须是基本对称的;(4)常模参照样本分数分布的形态必须接近正态分布;(5)常模量表的全距必须足够宽,使得最高得分和最低得分都能在常模量表的度量系统上找到应有的位置;(6)量表分数的得分点数不应该超过原始分数的得分点数;(7)常模只能被看作是整个测验项目的一项基础设施建设,必要的时候需要调整。

换句话说,尽管数据量巨大、所有数据都直接来源于实际测评过程,数据的结构、形态等还特别规范,但不同的大数据分析方法仍然会导致质量差别甚大的常模。因此,大数据背后的分析方法在常模研发的过程中具有关键性的作用,直接使用平均值和标准差的方法并不是恰当的常模研发方法。

总之,大数据分析是一种发展前景被十分看好的高级数据处理方法。它在现代信息技术的支持下,可以获取过去不太容易获得的实时的、海量的信息,为企业经营和管理决策等方面提供新的有益帮助,而且许多高科技公司在这方面的投入也十分有力,并逐步探索和开发出了有别于传统数据分析方法的大数据分析平台或方法。不过,从利用大数据研发SAT-I常模的历史来看,大数据分析的方法还有很多值得完善的地方,完全脱离心理测量理论和技术支持的基于大数据的常模研发技术目前尚未成熟。

感谢大家阅读由大数据教程分享的“杨志明:大数据分析及其在常模研发中的应用”希望对大家有所帮助,更多精彩内容请关注大数据培训机构官网

免责声明:本文由小编转载自网络,旨在分享提供阅读,版权归原作者所有,如有侵权请联系我们进行删除

预约申请免费试听课

上一篇:每个 Java 开发者都应该知道的 5 个注解!
下一篇:干货 | 互联网运营中的10大数据分析方法

用大数据分析高校招生现状

你真的理解了MVC, MVP, MVVM吗?

Spring中定时器实现

Servlet请求和响应

选择城市和中心
贵州省

广西省

海南省