哈佛教授孟晓犁是否有搞错了?

  作者:詹华平

  孟晓犁是谁? 从2004年开始,哈佛大学统计系的系主任。

  他在杂志《新一代》2015年第12期上发表了一篇面向大众的非学术文章《大数据:越大越有价值吗?》。我是在文摘杂志《读者》(2016年第4期)上读到的。在那篇文章里,他举了一个例子用来说明“所谓大数据,并非越大越有价值”。他的例子如下:

  “比如,在美国做一个1000人的抽样调查,这个调查若是在中国做,要达到同样的精度,需要抽取多少人?美国的人口是3.2亿人,中国的人口是美国的4倍 多一 点。每次我在大学做讲座问到这个问题时,只有10%的人能说出正确答案:仍需抽样1000人。绝大多数人认为,抽样数必须大于4000。”

  然后他进一步用喝汤做比喻,“要确定汤的咸淡,大多数人只需要尝几口,并不需要把汤全部喝完。……”

  关于喝汤的比喻,我是同意的,但是关于抽样调查,我个人觉得有一点点误导。查一下维基百科https://en.wikipedia.org/wiki/Standard_error#Correction_for_finite_population , 就可以发现,对于人口是有限多的情况,精确地说需要一个修正项(在没有这个修正项的情况下,是与人口数无关)。所以要得到同样的精度,严谨地说抽样数是与总人口数有关的。如果中国人口按14亿算,那么在中国为了同样的精度,必须抽样4373人。也就是说真地必须大于4000人的。

  孟晓犁是哈佛大学统计系的系主任,一年的薪水我估计35万美金。而我的年薪是2万元人民币不到。如果读者根据年薪来判断,或许他是对的,而我说的是错误的。

(XYS20160321)

This site is supported by ebookdiy.com.

Be the first to comment

Leave a Reply