百科生活 投稿
关于【数据清洗是什么】,数据清洗是什么工作,今天小编给您分享一下,如果对您有所帮助别忘了关注本站哦。
- 内容导航:
- 1、数据清洗是什么
- 2、什么是数据清洗?
1、数据清洗是什么
数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。数据清洗,即对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。
2、什么是数据清洗?
什么是数据清洗?
数据清洗主要指回收数据后,对样本、变量、数据、问卷逻辑等进行预处理的过程,是数据分析前非常重要的一步,其结果直接关系到数据分析的质量和效率。
数据清洗的目的?
1.检查数据回收情况,如回收样本量是否与实际相符,变量名是否与问卷一致等;
2.提高数据的质量,如是否出现快速做答、重复做答等;
3.便于后续的数据分析,如将省份分类、合成量表总分等。
如何进行数据清洗?
原则:保留原始数据
1.数据清洗前,备份原始数据
2.数据清洗时,不改变原有数据
步骤:

1.检查
(1)检查样本量
样本量确定时,检查是否与预期样本相符;
样本量不确定时,查看现有样本量
(2)检查变量
检查变量的数量是否与问卷一致;
检查变量名、变量标签是否完全显示,如果显示完整,是否与问卷一致
检查变量类型是否与问卷一致
(3)检查数据
检查数据是否出现异常值,如只有1-5个选项,出现了6
2.变量的清洗
(1)重命名变量名,并贴标签
为便于数据分析,变量名常用英文表示,且与问卷题号保存一致,如第一部分第一题,常命名为P1Q1。
有的数据的变量名可能直接用问卷题项命名,需重新编码、命名,并在命名之后为其贴标签。

图6 贴值标签后

图2 重命名后的变量名及标签
(2)更改变量类型
变量类型主要有数值型和字符型两种,数据分析时,常需要数值型变量。


图4 变量类型为数值型
(3)贴变量的值标签
通常情况下,回收的数据为数字,但分析数据时,常需要具体的选项内容,为此,需要贴值标签。
图5 贴值标签前
图6 贴值标签后
(4)重新编码变量
A.反向记分
如原选项为1、2、3、4、5,反向后为5、4、3、2、1
B.计算变量
如量表题中,生成总分的变量
C.新增分类
如省份,重新生成东中西部地区
D.数字填空题
如薪资的填空题,超出最大值、单位写错等
3.数据的清洗
(1)重复数据
根据唯一字段,如学号、学校等删除重复个案
(2)无意义数据
A.时间
计算答题时间,删除时间在3个标准差之外的样本,或者,前后各2.5%的样本,也可同时考虑
同时,根据具体情况再做删除,如问卷需10分钟做完,则删除10分钟以下的个案。
B.测谎题
如,设置的测谎题为“请选择第二项”,选择其他项的样本均删除
C.直线做答
所有题项均答同一个选项的为直线做答,删除此部分样本
(3)极端值
常出现于填空题中,如薪资的数据均值在1万,10万则可能是极端值。可通过箱图等判断极端值,将其设置为缺失或删除。
4.问卷逻辑的清洗
问卷中,有时会设置跳转的题项,如本科生回答部分题目,研究生回答另一部分题目,需要查看跳转逻辑是否正确。
逻辑是否正确。
本文关键词:数据清洗主要清洗内容是什么,数据清洗是什么课里面的,数据清洗是什么意思啊,数据清洗是什么,数据清洗是什么工作。这就是关于《数据清洗是什么,数据清洗是什么工作(什么是数据清洗)》的所有内容,希望对您能有所帮助!
- 最近发表