整理调查数据(技能)
一、整理调查数据(技能)第一步,调查数据的审核 为了提高调查数据的可信度,对收集回来的数据要逐一进行审核,通过对数据进行审查核实,避免调查数据的遗漏、错误或重复,确保调查资料准确、真实、完整和一致,达到调查数据整理的目的和要求。
1.完整性审核 完整性审核主要看问卷或调查表内的各个项目是否按要求填写齐全,应该调查的单位是否都已调查完毕。如果发现有空缺的问题应立即询问原因,找出问题所在,及时填补空白问题。如果问卷中出现问题回答了,但明显是为了完成任务而敷衍了事,应采取适当措施予以处理。
这类问卷,被调查者为了完成任务而敷衍了事,可视为不完整数据,需要和调查者进行沟通后对问卷进行修正。
2.准确性审核 主要审调查数据的口径、计算方法、计量单位等是否符合要求,剔除不可靠的资料,使资料更加准确;同时要审调查过程是否客观公正,是否是被调查者真实意见的体现。另 外,收集上来的调查数据是否清晰易懂,如果所记录的回答字迹模糊,或者除调查员以外 谁都看不明白,则应返回让调查员校正或写清楚。在调查问卷中的一些开放性问题的答案,要检查用词是否得当,是否模棱两可,是否产生歧义,对问卷准确性审核,要从问卷的设 计、卷面作答及统计方式等多方面审核,以免出现信息不准确影响到分析结果。
3.逻辑性审核 逻辑审核是分析调查数据之间是否符合逻辑,检查被调查者的回答是否前后不一致,有无违背常理的地方。
4.及时性审核 审查各被调查单位是否都按规定日期填写和送出,填写的数据是否是最新数据。现代 市场活动节奏越来越快,只有代表市场活动最新状态的市场信息才是使用价值最高的信息,切勿将失效、过时的信息引入决策中,此外,要剔除不必要的数据,把重要的数据筛选出 来。
5.真实性审核 对数据真实性审核要看调查员有没有不实或做假行为,目前调查员偷工减料、弄虚作假情况时有发生,例如有些电话访问、入户调查等,不可能在访谈实际发生现场观察和监督,就容易出现调查不实行为,因此在审核调查数据还可以采取抽查、一定比例复查等方式对数据的真实性进行审查。
第二步,调查数据的编码 目前常见的编码方法主要有顺序编码法、分组编码法、表达式文字编码法和缩写编码法。
(1)顺序编码法 又称系列编码法,是指用一个标准对信息资料进行分类,并按照事实上的顺序用连续数字或字母进行编码的方式。比如调查某大学生的家庭月收入,把不同收入家庭分为四个档次,顺序编码时可用①-④分别代表从低到高的四个档次。
① 2000 元以下 ② 2000-4999 元 ③ 5000-7999 元 ④ 8000 元及以上这种编码方式简单易于管理,但不适于进行分组处理。
(2)分组编码法。
分组编码法又称区间编码法,是根据调查对象的特性和信息资料分类及其处理的要求,把具有一定位数的代码单元分成若干个小组(或区间),每一小组的数字均代表一定的意义。
(3)表达式文字编码法 该方法是用数字、文字、符号等表明编码对象的属性,并按此进行信息资料编码的方法。例如:42TVC 表示 42 英寸彩色电视机,其中 TV 是电视机的缩写,C 是 color 首字母。这种方法比较直观,易于理解,便于记忆、识别。
(4)编写编码法 该方法是把惯用的编写字直接用作代码进行编码,如 FT-英尺,KG-千克,YD-码。
第三步,调查数据的分组 选择分组标志的依据有三:一是要根据研究的目的选择分组标志;二是要选择反映事物本质的标志;三是要根据经济发展变化及历史条件选择分组标志。
1.常用的分组标志有四种,即品质标志分组、数量标志分组、空间标志分组和时间标志分组。
(1)品质标志分组 品质标志分组是说明事物的性质或属性特征的分组方法,它反映的是总体单位在性质上的差异,它不能用数值来表现。按品质标志分组,标志一经确定,组数和组限都非常明显,不存在组与组之间界限难以划分的问题。
按品质标志分组反映的是被研究市场现象质的属性或特性,可以把不同性质或类别的事物区别开来,有利于认识不同质的事物的数量特征,有利于对不同质的事物进行对比研究,而且由于事物质的属性和特征差异是相对稳定的,这种分组一般也相对比较稳定。
(2)数量标志分组 数量标志分组又称变量分组,能够直接反映所研究的市场现象的数量特征。按数量标志分组,能直接反映总体单位之间的数量差异,有利于从数量上准确认识客观事物,研究和分析不同数量特征事物之间的关系。
(3)空间标志分组 按研究对象的地理位置、区域范围等空间特性分组,如行政区划、经济区划等分组。按空间标志分组,可以把不同地域的事物区别开来,有利于了解事物的空间分布状况,便于对不同地理位置、区域范围内的环境现象进行比较研究。
(4)时间标志分组 时间标志分组是以调查问卷中的一些时间属性的调查项目(如购买时间、需求时间)作为分组标志,对被调查者的时间选项进行分组而形成的时间数列。按时间标志分组,有利于认识事物在不同时点或时期的变化,揭示事物运动、变化、发展的趋势。
2.开放性问题的分组 开放性问题的分组相对复杂,要因被调查者的答案而异。对开放式问题答案的分组整理可遵循如下思路和程序。
(1)集中所有同一个开放式问题的全部文字性答案,通过阅读、思考和分析,把握被调查者的思想认识。
(2)将被调查者的全部文字性答案,按照其思想认识不同归纳为若干类型,并计算各种类型出现的频数后,制成全部答案分布表。
(3)对全部答案分布表中的答案进行挑选归并,确定可以接受的分组数。一般来说,应在符合调研项目的前提下,保留频数多的答案,然后把频数很少的答案尽可能归并成含义相近的几组,应根据调研的目的和答案类型的多少而确定,一般来说应控制在 10 组之内。
(4)为确定的分组选择正式的描述词汇或短语。不同组别的描述词汇或短语应体现质的差别,力求中肯、精炼、概括。
(5)根据分类归纳的结果,制成正式的答案分布表。
第四步,调查数据的汇总1 1 .调查数据录入 数据录入是将经过编码的数据资料输入计算机的存储设备中,这样便可供计算机统计分析。数据录入形式有两种,一种是以单独数据文件的形式录入和存在,另一种是直接录入专门的统计分析软件中,如 Excel,SPSS 等。
数据录入最常见的方式还是手工键盘录入方式,在这种录入方式下,录入人员要小心防止出错。如果录入人员工作态度不够认真负责或者技术不熟练,会扩大差错率。因此采用手工录入时,需注意以下几点:
(1)挑选工作认真负责、技术水平高的人员组成数据录入小组。
(2)加强对录入人员的培训、管理和指导。
(3)对录入的资料进行抽样复查,一般复查比例为 25%~35%。
(4)在有条件的情况下,采用双机录入,即两台计算机分别录入相同的资料,然后进行比对,找出差异数据,确定差错,然后更正。此方法花费时间,输入成本也较高。
(5)在录入数据前要确认每张问卷是否进行编号,方便数据复查。
(6)录入时将问卷答案 ABCD 替换为 1234,将原始问卷进行替换,这样做是因为录入数字要更快捷方便,而且使问卷看起来更简洁,尤其是问卷数量较多的情况下。其实有经验的调研团队会在一开始设计调查问卷时,就将问题选项设计为 1234,这样可以有效避免转化时出现错误。
原始问卷 1.您是农村户口还是城市户口()A. 城镇 B. 农村2.您是男生还是女生()A.女生 B.男生 3.您的家庭月收入为多少()A. 2000 元以下 B. 2000-4999 元 C. 5000-7999 元 D. 8000 元及以上4.您的月生活费大概为多少()A.400 元以下 B.400—699 元 C.700—999 元 D.1000-1499 元 E.1500 元及以上 5.你的生活费主要来自于()[可多选] A. 奖学金 B. 做家教 C.家中补给 D. 校内勤工俭学 E. 校外课余打工 F. 自己开店 G.网上兼职 H.其他替换问卷 Q1、您是农村户口还是城市户口()1.城镇 2.农村 Q2、您是男生还是女生()1.女生 2.男生 Q3.您的家庭月收入为多少()1.2000 元以下 2.2000-4999 元 3.5000-7999 元 4.8000 元及以上 Q4.您的月生活费大概为多少()1.400 元以下 2.400—699 元 3.700—999 元 4.1000-1499 元 5.1500 元及以上 Q5.你的生活费主要来自于()[可多选] 1.奖学金 2.做家教 3.家中补给 4.校内勤工俭学 5.校外课余打工 6.自己开店 7.网上兼职 8.其他 假设我们选取 10 份样卷,在 Excel 中录入数据如图 5-4 所示(下列所有图示见图片资源),问题 1-5 中所列数字即为该问卷编码后的调查答案。
如果问卷数量较多,可将图 5-4 第一行第一列进行冻结,这样录入时依然可以看到各字段名,用冻结功能可以有效减少出错。冻结方法为:将鼠标放入要冻结行的下一行,要冻结列的右一列,比如在图 5-4 中将鼠标放入 B2 处,再点击菜单上方“窗口”——“冻结窗格”即可。窗口冻结完成后,会有两条黑线标识,如下图 5-5 所示。如果只需冻结行而无须冻结列,只须将鼠标由 B2 改为 A2 即可。
为了避免在数据录入时出现录入无效数字这样的错误,在录入数据前可对单元格有效
性进行设置。例如 Q2 只有 2 个选项,如果不小心录入了数字 3,通过有效性设置进行系统提示。设置方法为:首先用鼠标拖动选中的单格区域 C 列,点击“数据”菜单,出现下拉菜单,从下拉菜单中点子菜单“有效性”,出现对话框,点“设置”选项卡进行设置;其次,点击“出错警告”选项卡进行出错警告提示语的设置。如图 5-6,5-7 所示。
设置好了后,如果某单元格输入数字 3,就会有下列提示,以达到自动纠错功能。
2 2 .调查数据汇总 1)对调查问卷不分组,统计单选题(1)使用 COUNTIF 函数进行统计 COUNTIF 函数是 Excel 中对指定区域符合指定条件的单元格计数的一个函数。数据全部录入完毕后,我们可以用这个函数功能进行数据统计。
在本例中,A16 单元格是需要统计问题一选 1 答案的有多少人,统计的结果写在 B16 单元格处。用 COUNTIF 函数进行统计时,在单元格 B16 中输入=COUNTIF(B2:B11,1),如图 5-9 所示,再回车,即可得到统计数字 6,即表示问题一中选 1 答案的人数为 6 人。如果需要统计选 2 的人数,只需将=COUNTIF(B2:B11,1)中的 1,改为=COUNTIF(B2:B11,2)即可,这里的 B2 和 B11,是要统计区域的首末两端。
(2)使用自动筛选功能进行统计 自动筛选也是 Excel 中常见的功能,一般用于简单的条件筛选,筛选是将不满足的条件数据暂时隐藏起来,只显示符合条件的数据。
在本例中,点击要统计数据区域中的任意单元格,然后单击菜单“数据”——“筛选”——“自动筛选”,统计问题右边会出现三角形的下拉按钮,打开选 1,此时可在左下角状态栏里看到“在 10 条记录中找到 6 个”(如图 5-10 所示),将 6 填入 B16,用同样方法可以将 Q1 中选 2 的数据统计出来。
(3)使用数据透视表功能进行统计 数据透视表是一种交互式的表,可以进行某些计算,如求和与计数等。数据透视表可以根据行号、列标和页字段而动态地改变版面布置,以便按照不同方式分析数据,每一次改变版面布置时,数据透视表会立即按照新的布置重新计算数据。
在本例中,点击“数据”菜单,在下拉窗口选中“数据透视表和数据透视图”,会出现下列对话框,点击“下一步”,如图 5-11 所示。
选中 B1 至 B11 的数据区域,要统计的数据区域就会写入向导图的“选定区域”工作框内,再点击“下一步”,如图 5-12 所示。数据透视表显示位置,可以在“新工作表”中也可以在“现有工作表”中进行,然后点击“完成”,如图 5-13 所示。
在 Excel 中就会出现一个空白透视图,如下图 5-14 所示:
将 Q1 拖至“将行字段拖至此处”的空白框内,当然,也可以将 Q1 拖至“将列字段拖至此处”的空白框内,拖至不同位置,表格的风格会不同,但不影响统计结果。如果我们统计的是 Q1,再将 Q1 拖至“请将数据项拖至此处”空白框内,就可以得到图 5-15 所示:
再双击黄色单元格“求和项:Q1”,将透视表字段名称改为“计数”,点击“确定”,如图 5-16,图 5-17 所示。
用数据透视表方法统计单一变量的计数并没有太多优势,但如果用于分组统计,编制交叉分析列表就会变得很快捷,后面我们会继续用到此功能。
2.对调查问卷不分组,统计多选题(1)使用 COUNTIF 函数进行统计 用 COUNTIF 函数统计多选题时,需将单元格中的数字改为文本格式才可以进行统计。转换方式为:先选中要变更的数字列,如图 5-17 中的 F 列数据。然后点击菜单“数据”——“分列”,在跳出的对话框中,两次点击“下一步”,在“列数据格式”中选中“文本”,然后单击“完成”,如图 5-18 所示。
设置完成后,会在所选数字列的单元格左上角有个小三角形,即表示修改成功,如图 5-19 所示。
接下来,用 COUNTIF 函数进行统计,假设我们要统计问题 5 中选择 3(即生活费主要来源于家庭提供)的人数有多少,可以在 B18 单元格中输入函数公式:
=COUNTIF(F2:F11,"*3*"),再回车,即可得出统计数据,图 5-20 所示。如果想统计出选项 1 和选项 3 的答案个数,可以在 B19 里输入 =COUNTIF(F2:F11,"*1*3*"),回车,即可,如图 5-21 所示。
图 5 5--21 COUNTIF 函数统计多选 2 2(2)使用自动筛选功能进行统计 首先和方法 1 相同,需要使用“分列”命令将数字转化为文本,选中 F 列,然后单击 “数据”——“自动筛选”,在多选题右边的下拉按钮中选“自定义”,如图 5-22 所示。
图 5 5--22 自动筛选之自定义 1 1
然后选“包含”,右边输入“3”,可计出相应个数,如图 5-23,5-24 所示,在表格左下侧就会出现“在 10 条记录中找到 10 个”,将统计数据填入相应单元格即可。
图 5 5--23 自动筛选之自定义 2 2 图 5 5--24 自动筛选之自定义 3 3 3)对调查问卷进行分组,统计单选题 如果要对数据进行分组再分别统计各组的数据情况,比如要统计男生和女生分别在学校的消费情况,需要先将第 2 问和第 4 问进行分组,再进行统计。我们采用数据透视表的统计方法。
首先打开“数据”下拉菜单,选中“数据透视表和数据透视图”,在“数据透视表和数据透视图向导”对话框中点击“下一步”,将数据 Q2-Q4 的数据导入“选定区域”,再单击
“下一步”,选中“现在工作表”,点击“完成”,就会看到图 5-25 显示。此步骤和前面数据透视表方法相同。
图 5 5--25 数据透视表 将 Q2 拖至“行字段处”,Q4 拖至“列字段处”,然后将“Q2”或“Q4”拖至“数据 项处”,再将“求和项”双击,改为“计数”,可得到图 5-25,即针对问题一和问题二的分组汇总完成。当然你也可以将 Q2 拖至“列字段处”,Q4 拖至“行字段处”,这样不影响统计结果,只改变表格行和列的风格,具体操作因不同人的偏好而异。
图 5 5--26 分类汇总结果图 4)对调查问卷进行分组,统计多选题 如果要将问题 2 分组后再对问题 5 进行统计,先同样将多选题数据通过“分列”命令改为文本格式。然后用“数据”——“筛选”——“自动筛选”,统计问题 2 右边会出现三 角形的下拉按钮,打开选中“1”,将问题 2 选中“1”答案的先分出来,问题 2 分组完成后,然后再在多选题问题 5 中通过右边的下拉按扭中选“自定义”,选“包含”选项,输入要统 计的数字,即可完成多选题的分组统计,如图 5-27 所示。
图 5-27 自定义分类汇总 第五步,调查数据的列示 1 1 .以表格方式列示 数据统计完成后,还需要用一定的表格或图形将数据列示出来。统计表是以纵横交叉的线条所绘制表格来列示数据的一种形式。在资料整理过程中,把经过大量调查得来的统计资料绘制成表格进行列示,其优点有:一是能有条理地、系统地排列数据,使人们阅读时一目了然,印象深刻;二是能合理地、科学地组织数据,便于人们阅读时对照比较。
统计表从形式上看,是由总标题、横行标题、纵栏标题、指标数值 4 个部分构成。
最常见的统计表格是频数分布表。
频数是指每个分组所含的数据个数。在观察值个数较多时,为了解一组同质观察值的分布规律和便于指标的计算,可编制频数分布表,简称频数表。
市场调查资料制表列示方式主要有单栏统计表和多栏统计表。最简单的表就是对单一 问题按回答项目制表,称为单变量频数表;对两种或两种以上的调查项目变量制表称多栏 表,又称交叉制表。交叉制表的价值在于它提供了项目变量之间的关系和内涵,其优点有:
(1)使统计数据清晰、简洁;(2)使统计内容简明易懂;(3)便于各变量间的对比,便于计算;(4)方便核查各数据的正确性和完整性;(5)为数据的深度分析(相关分析等)提供基础。
1)单变量频数表的制作与列示 按照某一变量分组以后,用以反映总体各单位分配情况的统计数列,称为单变量频数分布表。例如引导案例中对某某大学大学生月消费水平调查,如果想了解该校大学生户籍情况,根据户籍情况来分析大学生的月消费水平。我们可以根据回收的 200 份问卷,分别统计问题 1 两种答案的个数,统计方法可以按本单元“对调查问卷不分类,统计单选题” 里列举的 COUNTIF 函数、自动筛选或数据透视表等方法绘制单变量频数分布表如下:
表 表 5-7 某某大学大学生户籍情况表 2)交叉列表的制作与列示(1)双变量交叉列表 交叉列表是用于提供基本调查结果的最常用形式。交叉列表可以清楚表示两个分组变量之间的相互关系,也可以看成是分组的频数表,即一个变量的频数分布是根据另一个变量的取值来进一步细分的。
如上文中我们通过“数据透视表”的方法,将问题 2 和问题 4 设定为两个变量,将统计数据进行分组汇总,得到 5-24 分组汇总截图。将分组汇总截图进行表格整理,得到表 5-8。
表 5 5--8 8 男女生月消费情况表 1 1 该表当初为了录入和统计的方便,将问题和答案进行了数字化编码,现在我们将数字编码置换成文字后,表格为:
计数项:Q4 Q2 1 2 总计 Q4 1 2 3 2 5 3 4 5 1 2 2 1 1 1 1 1 总计 4 6 10 频数 城镇 农村 124 76 频率(100%)62% 38% 合计 200 100%
表 5 5--9 9 男女生月消费情况表 2 2 此时,双变量交叉列表完成,在该表中显示了不同性别的学生月消费情况所对应的频数统计,也可以将此表换成百分比,绘制成频率表。
(2)三变量交叉列表 调查变量之间,有时候只研究两两变量之间的关系是不够的,有时候双变量进行列表分析可能得出的结论不准确,就需要在变量之间再加入第三个变量,使之能更精确地反映原有两个变量之间的联系。三变量交叉列表的优点有:
第一:更精确反映原有二变量之间的关系; 第二:揭示原有相关关系为虚假相关; 第三:显示原先被隐含的联系; 第四:不改变原有的相关关系。2 2 .以图形方式列示 数据资料的统计显示主要通过统计表与统计图来实现,我们在做市场调查时,除了需要编制统计表,还经常要制作统计图,统计图可以用点、线、面等几何图形直观地表达和描述数据或结果。从视觉上来看,统计图具有简洁直观、形象生动的特点,给人明确和深刻的印象,一般能取得更好的效果。
1)饼形图制作与列示 饼形图是最常用的统计图,简单而直观,饼形图一般只适用于单选问题,饼形中每一部分面积表示某个变量对应取值的百分数。饼形图可以是平面的,也可以是立体的,通常依据绘图人偏好而定。下面就某某大学大学生月消费调查数据中“月生活费”情况为例演示饼形图的绘制方法。假设对回收的 200 份问卷,通过数据录入与整理,数据如下:
表 5 5--13 XX 学校学生月消费情况表 首先在 Excel 表格中,在“插入”下拉菜单里选中“图表”,选中“饼图”,在“子图表类型”中选中某个类型,点击“下一步”。如下图 5-29 所示。
月生活费 频数 频率(100%)400 元以下 21 10.5% 400—699 元 77 38.5% 700—999 元 54 27% 1000-1499 元 36 18% 1500 元及以上 12 6% 总计 200 100% 月消费情况 性别 400 元以下 女生男生总计 400—699 元 3 2 5 700—999 元 1000-1499 元 1500 元及以上 1 2 2 1 1 1 1 1 总计 4 6 10
图 5 5--29 饼图向导图 1 1 将“月生活费”和“频数”的数据选入“数据区域”,再单击“下一步”,如图 5-30 所示。
图 5 5--30 饼图向导图 2 2 将图表标题改为“XX 学校学生月消费情况图”,如图 5-31 所示。如果觉得右边图形数值不够直观,可在“数据标志”——“数据标签”里将“百分比”勾选上,点“下一步”——“完成”,如图 5-32 所示。
图 5 5--31 饼图向导图 3 3 图 5 5--32 饼图向导图 4 4 饼图绘制出来后,通常还需要进行修饰,以便看起来更清晰、美观。修饰饼图时,可根据需要针对不同的图表对象,例如图表标题、数据标志、引导线等分别操作。如果是图表标题或右侧说明性文字需要修饰,可单击图表标题“XX 学校学生月消费情况图”,点击鼠标右键,“图表标题格式”——“字体”,选中合适的字体和字号,就可以完成图表标题的修饰。同样方法可以修改右侧说明性文字,如图 5-33 所示。
图 5 5--33 饼图向导图 5 5
简单修改后,就可以将饼图复制插入到将来的数据分析报告或市场调查报告中,如图 5-34 所示。
2)柱形图制作与列示 图 5 5--34 饼形图 柱形图也是常见的统计图之一,简单而直观,它是用矩形的宽度和高度来表示频数分布的图形。同样制作柱形图可以参照上面的步骤进行,我们依然以表 5-13 为例,首先在Excel 表格中,“插入”——“图表”,图表类型选为“柱形图”,子图表类型选中其一。如图 5-35 所示。
图 5 5--35 柱形图向导图 1 1 点击“下一步”,将数据导入“数据区域”,如图 5-36 所示。
图 5 5--36 柱形图向导图 2 2 再点“下一步”,在“图表标题”中输入图表名称“XX 学校学生月消费情况图”,然后在“坐标轴”、“网格线”、“图例”、“数据标志”及“数据表”中按统计要求选取合适的图表参数。如图 5-37 所示。
图 5 5--37 柱形图向导图 3 3 再单击“下一步”——“完成”,制图结果如图 5-38 所示。
图 5 5--38 柱形图向导图 4 4 同样,如果对图表不太满意,可以按照饼图所列方法对该图表进行修饰。
3)折线图制作与列示 折线图是用直线将各数据点连接起来而组成的图形,以折线方式显示数据的变化趋势,在折线图中,数据是递增还是递减,增减的速率、增减的规律、峰值等特征都可以清晰地 反映出来,所以折线图常用来分析数据随时间的变化趋势的一种图形。
我们还是采用表 5-13 XX 学校学生月消费情况表为例,用 Excel 软件中的图表向导来制作折线图,具体步骤同前面的饼形图、柱形图相同,在选择图表类型时选择“折线图”,制作结果如图 5-39 所示。
版权声明:
1.大文斗范文网的资料来自互联网以及用户的投稿,用于非商业性学习目的免费阅览。
2.《整理调查数据(技能)》一文的著作权归原作者所有,仅供学习参考,转载或引用时请保留版权信息。
3.如果本网所转载内容不慎侵犯了您的权益,请联系我们,我们将会及时删除。
