大数据培训
美国上市大数据培训机构

400-111-8989

热门课程

做数据分析要懂统计

  • 时间:2018-06-18 13:39
  • 发布:大数据培训
  • 来源:大数据问答

做数据分析要懂统计!拿到一组数据照猫画虎做出一组漂亮的图表,这样你就是数据分析师了?数据分析上的统计学意义是什么?做数据分析最基础的就是掌握统计学,工具的操作只是帮你快速业务流程梳理出关键性的分析和指标体系。这些体系和指标的度量和之间的关系就要依靠统计学去界定和规范。做数据分析要懂统计怎么理解呢?

做数据分析要懂统计

我们举个例子来看,经常看到某某行业,某某公司的平均工资是每年20万什么的,然后如果恰恰自己又在这个行业中,看看自己的工资条,有些人会不会感到有点迷惑和不满?其实这些都是骗人的统计方式造成的。

如果一个公司有200人,普通员工180人,工资月薪3500元;管理层员工19人,月薪假设平均为5000元;老总1人月薪是20万;那么该公司的平均月薪是13625元,员工一年的平均工资十几万了,可是实际情况却并不是像数据显示的这样。

或者网站改版了,视觉变化了,或者交互功能变化了,日点击量或访问量比未改版前提高20万次,那么是否可以根据这个升高的数据说明我们的改版是成功的?显然通过上面的例子我们不能如此简单的处理数据,并得出结论。

做数据分析要懂统计,简单实用的统计方法:

从Z分数、T检验、X2检验、方差分析到回归方程等,基础的统计方法就有很多种,究竟该用哪种好呢?

传统的统计教材没意思的原因就是书中讲述的概念过多,脱离现实谈统计,实在不好理解,或者学过就忘记,或者遇到问题不会用。如果能结合各种实例,应该就会变得更加清晰了。所以,这里我们依靠一些例子来介绍一些常用的统计方法及适用范围,欢迎大家批评指导。

还拿我们上面的例子来说,一个网站改版了,新版的页面没有改变原来的交互操作,只是改变了视觉样式,用户访问量和点击量变化了,这些变化是好是坏?

首先我们来进行一下分析:

1、我们已知的是改版前后点击量的数据和用户访问量的数据

2 、我们想知道这个变化是好是坏

要怎么做?算一下改版前后用户的百分比和点击量的百分,如果改版后用户量下降了,点击量下降了是不是改版就不成功?显然我们不能如此简单的看问题。要比较这两个样本,我们可以使用T检验。

T检验(Student’s t test)是用于小样本(样本容量小于30,总体标准差σ未知的正态分布)的两个平均值差异程度的检验方法。

但是T检验需要方差齐性决定结果,不过别担心,统计软件会帮我们进行校验。

我们把采集的数据输入(这个不用我讲了吧,txt文件就行)到统计软件中,然后进行配对样本T检验(相当于对于一个处理进行前后测,所以使用配对样本T检验),得到结果如下表(用spss做的,数据是我编的):

只关注黄色部分就可以了,其中第一项是均值,std是标准差,t值,df代表自由度,sig为p值,在本例中,我的置信区间是95%,所以如果sig<.05就代表差异显著。

从表上看,改版前后点击量和用户数两项上差异并不显著,所以我们可以认为这次改版至少没引起什么不良的影响。

也许有人会觉得得出这样一个无关痛痒的结论没意思,但是请大家想一想,与其单存因为数据量上的增加或减少就兴高采烈的去邀功或者垂头丧气的准备修改方案,也许真实的统计数据更能说明问题,可以让我们静下心,思考一下,应该如何改进我们的工作。

当然现实问题往往更复杂,仅就改版为例,我们需要考虑很多问题,例如:

1、改变了哪些内容? 外观还是交互方式?或者外观+交互方式?布局有什么变化?交互方式的变化对用户完成一个任务所需的步骤或点击次数是否有改变?

2、改版前的数据采集了多少天?改版后的数据采集了多少天?

3、改版前后的时期在每一年的相应劫夺,用户的访问量是否有显著变化?趋势是怎样的?

在这里只是仅仅举了一个简单的例子和大家分享一下统计学的思想。你做数据分析要懂统计知识,学习统计学能让自己的分析报告更有说服力,有理论支撑点,这也能从一定程度上规范自己的分析思维

上一篇:大数据时代来临,为什么好多人学习大数据培训开发?
下一篇:码农程序员为什么养猫?
<
选择城市和中心
贵州省

广西省

海南省