第一步确定组数
一组数据分多少组合适呢?一般与数据本身的特点及数据的多少有关。
如组数太少,数据的分布就会过于集中,组数太多,数据的分布就会过于分散,这都不便于观察数据分布的特征和规律。组数的确定应以能够显示数据的分布特征和规律为目的。
可以按美国人斯特杰斯(Sturges)提出的经验公式来确定组数K:
K:组数
n: 数据个数
ln(n):㏑即自然对数,以e为底数的对数通常用于㏑;以e为底数, e约等于2.71828.......
为方便大家进行数据分组,这里计算了从10个数据到1千万条数据的分组个数,供大家参考。
需要注意的是,这仅仅是分组理论,在实际的分组中,还需要观察数据,摸清数据分布规律,可以根据统计分析实际情况进行调整,组数过多,也不利于做进一步的统计分析。
第二步确定组距
确定各组的组距。组距是一个组的上限与下限的差,可根据全部数据的最大值和最小值(即极差)及所分的组数来确定,公式如下:
例如,最大值为100,最小值为30,则组距=(100-30)÷8=8.75 ,可以近似取到10。
第三步 分组
明确两个分组原则:
穷尽原则
使总体中的每一个单位都应有组可归,或者说各分组的空间足以容纳总体所有的单位。
互斥原则
在特定的分组标志下,总体中的任何一个单位的只能归属于某一组,而不能同时或可能归属于几个组。
上面的数据,最大值为100,最小值为30,组距是10,那么分组可能是:最小值——40,41——50,51——60……如此类推
以下是具体的分组案例
摘要:使用Excel进行数据分组的案例详解,三种方法:IF函数,VLOOKUP函数,LOOKUP函数,回复给邮箱,友情赠送EXCEL文档实例,以后自己套用即可。
原始数据
某网站50个页面的PV,数据过多,截取前面20条,降序排列后,最大值在第一位,是698,981,最小值是38,086,
计算组数
按照昨天的数据分组公式,先计算组数:
计算组距
组距=(最大值-最小值)/ 组数
为分组方便,我们取10的整数,组距为10万。
分组
分组标准,就是把50个数据,分成7组,组距是10万,见下图:
EXCEL中的分组实现
大家注意按照文章中给出的EXCEL行和列填入数据(可惜公众平台不支持附件,不然可以传这个案例给大家)。
想要案例文档的,回复个邮箱,我群发吧,以后做数据分组,套用就好了。
方法一:IF函数
注意IF函数最多只支持7层嵌套。
=IF(B2<100000,"A",IF(B2<200000,"B",IF(B2<300000,"C",IF(B2<400000,"D",IF(B2<500000,"E",IF(B2<600000,"F","G"))))))
方法二:VLOOKUP函数
=VLOOKUP(B2,$K$1:$L$8,2)
方法三:LOOKUP函数
=LOOKUP(B2,$K$1:$L$8)
分组实现截图
这种分组,适用分布相对均匀数据,那种差异特别大的数据,根据实际情况灵活调整吧。
来自在线学习平台,文/BLUES
上一篇:产品运营——外团招募
下一篇:产品经理的职业定位
¥398.00
¥129.00
¥86.00
¥188.00
¥699.00