以用户为中心的设计	这是UCDChina提前预览网页留下的存档，不包括作者可能更新过的内容。推荐您进入文章源地址阅读和发布评论：http://ued.taobao.com/blo......7/02/weight2/

修正调研数据扩展使用限度

作者：渡劫 | 发布： (编辑)kent.zhu | 时间：2010-07-04 12:48:07 文字大小：- +

缘起——网络调查具有先天的优劣势

最近一个季度做了N多调研项目，结项之余，不由自主地对比了一下网络调查与传统调查的优劣，详见下图：

有了这些先天的优劣势，网络调查一般执行的周期较短，但时常为了样本均衡，会采用脉冲式投放，收集数据的时间会适当延长一些。在我主导的网络调研项目中，投放的样本量一般都有几十万，一是为了能够快速收集足够多的调研样本，二是考虑到低响应率的问题。

如此大的投放量，而网络调研中又有很多不可控的因素，最终使用的有效调研样本量相对较低，他们到底是否能够有效代表总体呢？我想这个问题可以一分为二来看，在相同的执行条件下，只针对性地研究特殊用户的调研，有效调研样本在达到一定量的前提下，代表性偏差一般不大；需要推断网站全体用户的调研，虽然有效调研样本也能达到一定量，但代表性还是会打折扣，尤其是对淘宝用户而言。

加权——弥补网络调研数据先天的劣势
统计学中关于随机抽样的理论中讲过，一个研究随机抽取多少样本与总体的大小无关，而主要与最大允许误差和置信区间有关。但真正执行的时候，未必会这么理想，尤其是在人力财力有限的条件下，随机抽取的投放样本与有效调研样本之间，受响应率和认真填答的积极性等因素影响，会存在偏差。
那么在推断网站全体用户的调研中，就需要引入加权的思想，适当的加权可以使样本的关键结构，调整到与总体的关键结构相一致，从而提升样本的应用范围，所得结论会更严谨更具推广性；针对特殊用户的调研，也可以对样本进行加权，更有效地发挥样本的代表性。

加权的经典场景（例子中引用的数据均为虚拟数据，仅作为说明问题的案例，与真实数据无关）
A场景：常常遇到这样的问题：产品经理想要了解全体买家对某一个产品的使用体验、需求或满意度，也要比较初级买家和高级买家。
一般而言，随机抽取条件下，95%的置信度、5%的最大允许误差，推及目标总体所需样本量为384个，此处为计算方便，近似为400个。
事先已知，全网初级买家与高级买家的比例为39:1，高级买家所占比例仅为2.5%。若按照随机抽样原则抽取投放样本，为保证高级买家对比时满足统计需要，至少应有400个调研样本。那么，随机填答的前提下，总体调研样本至少需要16000个，响应率按照5%计算，需要投放的样本量达到32万。这只是理想状态下的情况，事实上高级买家的响应率更低，这就使得需要投放的总体样本量更大，工作中又不能经常投放如此大量的用户。——事前我们无法保证统计要求，怎么办？

B场景：若要推及全体卖家对某一产品的使用体验，如果随机抽取了20万投放样本，最终有效调研样本有4000个。经过数据匹配可知，调研样本的开店时间分布与总体存在较大差异，而该研究中开店时间是非常重要的指标。——事后我们无法保证统计要求，怎么办？
不论是事前还是事后，为使得研究有效，应该保证统计要求；调研理论与现实执行常常存在很大差距，这也是不争的事实。因此，研究中引入加权的思想，非常重要也很有必要。

加权的前提
样本加权是为了推及总体情况，主要用于两种情形：

加权的准备

如何加权——单变量比例加权

为了比较初级买家与高级买家之间对某一产品的体验差异，采用非等比随机抽样，事先增加了高级买家的抽中比例。

当需要推及总体买家对这一产品的体验情况时，需要对数据进行加权，结果如下：

上表第d列 (S/P) 是用各级别买家在调研样本中占的比例除以其在总体中占的比例，其值越接近1，说明该级别买家在调研样本中的比重越合适；反之，其值越背离1，其在调研样本中的比重越不合适。

若恰巧各组的这一比值均接近1，可以近似等同总体分布，而不对调研样本进行加权。本例显然需要对调研样本进行加权。

首先要确定加权的起点在哪里？这里有三种选择：

1）以S/P的最小值（本例0.69）为起点，将其他组的S/P值都降低到这个水平，因此叫做Scale-down weighting（“水落石出”法）。其结果是将原调研样本缩小S/P最小值倍（本例0.69，原调研样本7200人，每组权重为0.69/d列相应值，加权后减至4968)，放水过多，不合适

2）以S/P的最大值（如本例的8.33）为起点，将其他组的S/P值都提高到这个水平，这种策略叫做Scale-up weighting（“水高船涨”法）。其结果也就是将原来的调研样本放大S/P最大值倍（本例8.33倍，原调研样本7200人，每组权重为8.33/d列相应值，加权后会增至59976人），可见水分太大，不可取。

3）以S/P的加权平均值为起点，将大于1的S/P值调低至1而将小于1的S/P值调高至1，因此叫做Zero-sum weighting（“有增有减但总数不变”法）。加权后的样本数与原调研样本相同、还是7200（见表第f列）。可见这种方法相比之下最合理，学术界和调查业界通常都用它来加权。