返回第797章 敲打  我的1999首页

关灯 护眼     字体:

上一页 目录 下一页

本站最新域名 m.boshishuwu.com

sp;其实不然,数据要比数字大得多。
    
    互联网上任何内容,比如文字、图片和视频都是数据。
    
    医院里包括医学影像在内的所有档案也是数据;
    
    公司和工厂里的各种设计图纸也是数据;
    
    出土文物上的文字、图示,甚至它们的尺寸、材料,也都是数据。
    
    甚至我们人类的活动本身,也可以看做是一种特殊的数据。
    
    全世界各个领域的数据不断向外扩展,渐渐形成了另一个特点,那就是很多数据开始出现交叉。
    
    各个维度的数据从点和线渐渐练成了网。
    
    或者说,数据之间的关联性极大的增强,在这样的背景下,就出现了大数据。”
    
    顿了一下,徐良调整了一下PPT。
    
    “那么数据和大数据怎么运用呢?
    
    大致可以分为以下流程。
    
    获取数据分析数据建立模型预测未知。
    
    我们举一个简单的例子。
    
    现在我们想要了解一家电影院的观众年龄分布,以便做市场推广。
    
    假定我们把观众群分为15岁以下,1625岁,2640岁和41岁及以上四个人群。
    
    要了解每个人群的比例,一个简单的办法就是到电影院门口去问一问那些看电影的人的年龄。
    
    比如我们通过调查了解到大约有343人在15岁以下,459人在1625岁,386人在2640岁,490人在41岁及以上。
    
    根据这个数据,我们大致可以得出以下结论:
    
    15岁及以下的观众占20左右,1625岁的观众超过四分之一,但不到三成;
    
    2640岁的观众略少于四分之一,41岁及以上的观众最多,大约占到三成。
    
    但是,如果我们只在周末的晚上抽样调查10个人,我们就会发现。
    
    有三个15岁及以下的观众,五个1625岁的观众,2个2640岁的观众。
    
    我们显然不能说25岁以下的观众占了八成,而41岁及以上的中年人从来不来电影院,这样的结论。
    

    
本章未完,点击下一页继续阅读。


    但我想各位也都承认一点,在统计样本不充分的情况下,得到的结果跟实际结果存在很大的偏差。
    
    所以,越想要得到准确的统计结果,需要的统计数据量就越大。
    
    在上面的例子中,统计的样本总数是1678人。
    
    但是如果我们一定要说41岁及以上的观众就是29.2,或者15岁及以下观众一定超过20。
    
    这样非常肯定的的话,大家就可能会挑战这个结论。
    
    &t;divtentadv>因为,统计是有随机性的,也是有误差的。
    
    仅仅上千人的数据得不到这样准确的结论。
    
    统计除了要求数据量必须充分之外,还要求采样的数据必须有代表性。
    
    有些时候不是数据量足够大,同阶级过就一定准确。
    
    一个很简单的例子,一个爱情影片和一个战争影片,它的受众并不相同。

阅读模式无法加载图片章节,请推出阅读模式阅读完整内容

『加入书签,方便阅读』

上一页 目录 下一页

博仕书屋阅读榜

博仕书屋新书推荐