本站最新域名 m.boshishuwu.com
>
所以如果我们只采集爱情影片上映当月的观影人群,就不具有普遍的代表性。
那么怎么避免这种情况,获得准确的结论呢?
19世纪的俄国数学家切比雪夫对这个问题给出了他的结论,即切比雪夫不等式。
PXEXεVarXε2。
这个公式的含义是,当样本数足够多时,一个随机变量和他的数学期望值之间的误差,可以任意小。
把切比雪夫不等式应用到我们了解电影院观众年龄分布的问题中。
随机变量就是:观察到的各个年龄段观众的比例。
数学期望值就是:真实情况下所有看电影观众中不同年龄段的比例。
当我们把样本数据带入后,大致可以得出以下结论。
15岁以下观众占20,1625岁占27,2640岁占24,40岁以上占29,误差小于5。
但如果我们要将四个年龄段观众的准确率,提高到小数点后一位数,那么我们大致需要10倍的数据,即两万个左右的样本。
如果我们把这个问题放大。
我们想知道一部电影在全世界的观影人群年龄分布,而且必须具体到更细致的年龄段人数。
比如1820岁,2124岁等等。
又或者更具体的地域。
华夏、东瀛、南韩等等。
在一个更大,更详细的范围内,为了获得更准确的结果,我们需要的数据量,将千百倍的提升。
当我们获得了超级数据。
普通的计算机已经很难完成计算。
而且就算能完成,也需要大量的时间。
时间就是金钱,在商业上,这显然是不可接受的。
因此。
为了尽可能在短时间内得到结果,我们要一台或几台超级计算机来计算。
但动用超级计算机的费用非常昂贵。
想要了解电影院观众年龄的企业,显然不愿意在这个问题上花费这么大的代价。
那么怎么办呢?”
徐良操作了一下电脑。
背后的投影屏上显示出三个硕大的楷体。
云计算。
“云计算,云就是互联网,计算则是字面意思。
目前的云计算是一种分布式计算,指的是通过网络“云”,将巨大的数据计算处理程序,分解成无数个小程序。
然后,通过多部服务器组成的系统,进行处理和分析这些小程序,得到结果后返回给用户。
整个计算过程只需要几秒钟。
也就是说,云计算把一个原本需要动用超级计算机,需要几天,甚至十几天时间才能计算出来的问题。
变成了只需要几秒钟,花费几万块,最多十几万块便能得出的准确数据。
阅读模式加载的章节内容不完整只有一半的内容,请退出阅读模式阅读
阅读模式无法加载图片章节,请推出阅读模式阅读完整内容
『加入书签,方便阅读』