如何进行数据的分析与整理
他们一半是黑客,一般半是分析师,他们用数据来做产品,提出新见解。
—— Monica Rogati
想要做一个专题分析,首先就是要有数据。那么数据有哪些种类呢,数据又从哪里来呢?这两个问题将会引导我们学会如何理解数据和收集数据。
01
数据的类型
我们经常会在Excel的设置单元格对话框中看到很多的数据类型,但其实这么多数据类型,最终都可以归为两大类。
❶ 定性数据(字符型数据):
◎分类数据,如男女、民族等,不能区分大小,不能运算
◎顺序数据,如成绩的优良中差、满意度评分等,可分大小
❷ 定量数据(数值型数据):
◎离散型数据:如用户数、消费次数等,可加减
◎连续型数据:成绩、消费金额等,可乘除
※统计方法差异:
连续型变量:频数分析、集中趋势分析(均值、众数、中位数)、离散程度分析(标准差、方差、最大值、最小值、范围);
非连续性变量:主要能做频数分析
02
数据的收集
❶ 公司自己的数据库
互联网公司一般会通过数据埋点(日志)来获取数据,如UV/PV、用户数、用户停留时间、浏览页面等用户行为数据。
传统业务的公司则可能会通过一些系统,如SAP;
❷ 公开出版物,如统计局出版的期刊、年鉴等;
❸ 互联网
互联网上有很多的第三方的数据平台如:年鉴汪、中研网数据、中国互联网数据平台、腾讯大数据、国家数据,中国统计信息网等。
❹ 市场调研
线上问卷调查(如问卷星)、线下问卷调查、电话回访等。
03
数据的整理
收集完数据,下一步就是要做数据的整理了,数据整理是一项很繁琐很枯燥的工作。
❶ “三心二意”的整理数据:
◎信心:无论多少数据,相信自己一定能干掉它;
◎细心:1%的错误=100%的失败,注意每一个细微之处。
◎平常心:加班、电脑死机,软件无响应,一定要淡定!
◎诚意:对数据严谨负责,诚心诚意,保证数据客观真实
◎合意:要满足领导和业务部门的需求,及时沟通。
❷ “火眼金睛”的整理数据:
◎数据的异常表现:
空值、重复值、缺失值、波动太大、不同数据源获取的数据矛盾,数据与常识或经验矛盾等。
◎数据异常原因分析:系统故障,人为因素
❸ “按部就班”的整理数据(记得数据源备份一下哦)
◎数据分类化:每类数据命名并统一格式
◎数据统一化
- 数据口径的统一化,也就是同一维度的数据单位要一致。举个例子:二手车的行驶里程里面的数据不能有单位是“公里”的还有单位是“万公里”的,所有的数据要换算成同一单位。
- 数据定义的统一化,举个例子,新增对普遍人来说就是新注册用户,但在这个总数据里头,仍需细分,内部人员注册 / 搜索引擎注册 / 其他子产品用户注册 / 公众号入口注册 / PC端的注册 / 移动端的注册 / APP端的注册...等等,在整理数据时,要细分数据指标的意义。
◎删除多余的空格
◎删除重复值
◎填补缺失值(统计计算值填充,模型计算填充等)
◎处理异常值(平均值填充,统计计算值填充等)
◎不同数据源的交叉验证。
好啦,数据的收集和整理的方法到这里就大概介绍完啦,剩下的更多的是需要你在实际工作中结合实际情况去应用啦!作为一名数据分析师,你一定要学会修炼出一颗平常心,不能浮躁敷衍。记住,整理数据要“三心二意”、“火眼金睛”、“按部就班”。一起奋斗吧,加油!
最后,祝你早安,午安,晚安!爱你哦!