返回第798章 图灵测试  我的1999首页

关灯 护眼     字体:

上一页 目录 下一页

本站最新域名 m.boshishuwu.com

bsp; 找到了数学模型后,下一步就是用统计的方法训练出模型的参数,这在今天来讲就是机器学习。
    
    通过这种方法,人工智能的语音识别率从过去的70左右,提高到了90。
    
    同时语音识别的规模,从几百词上升到了两万多词,堪称革命性的发展。
    
    最重要的是贾里尼克的研究得出一个结论。
    
    即:
    
    随着数据量的不断提升,系统会变得越来越好。
    
    因此,国际上的人工智能研究分成了两派。
    
    一派是模仿人的鸟飞派,一派是数据驱动派。
    
    而后者之所以没有迅速发展起来,主要是因为数据获取非常困难。
    
    第一,当时没有机读资料。
    
    第二,很多文学明珠不同版本分散在不同国家,并且其翻译常常不是一一对应。
    
    当然还有很多其它原因就不一一细说了。
    
    但,这个困难在互联网时代被改变了。
    
    它的出现,让研究机构可以轻易获得全球的机读资料。
    
    而且数据量还在随着互联网的发展,每年呈几倍,甚至十几倍的增长。
    
    在庞大的数据支持下,从1994年到2004年的十年里,语音识别的错误率减少了一半。
    
    而机器翻译的准确性提高了一倍。
    
    其中20的贡献来自方法的改进,80来自数据量的提升。
    
    再就是今年2月份,在美国召开的全球机器翻译系统大赛。
    
    鸿蒙和Googe通过数据驱动的方法,取得了50以上的BLEU分数。
    
    比著名的南加州大学、IBM沃森实验室等研究机器翻译几十年的顶尖研究机构领先了5。
    
    而提高这五个百分点在过去需要研究510年的时间。
    
    在到英文的翻译中,鸿蒙的得分比第三名领先了17,同样采用数据驱动方法的Googe比第二名领先了15,这个差距已经超出了一代人的水平。
    
    而鸿蒙和Googe都是成立不超过十年的新公司。
    
    在人工智能研发上的底蕴肯定没有南加州和沃森实验室深厚。
    
    但我们却超过了他们。
    
    原因是我们比他们更优秀吗?
    

    
本章未完,点击下一页继续阅读。


    不是。
    
    那么差距是怎么产生的?
    
    很简单。
    
    作为全球最大的两个搜索公司,鸿蒙必应和Googe都拥有庞大的搜索数据库。
    
    &t;divtentadv>而且我们每年都在对全球所有的图片、图书、报刊数据化。
    
    这让我们掌握着全球最大的数据库。
    
    南加州大学和IBM沃森实验室虽然人才比我们多,研究基础比我们深厚。
    
    但他在数据量上远远不如必应和Googe。
 &nb阅读模式加载的章节内容不完整只有一半的内容,请退出阅读模式阅读

阅读模式无法加载图片章节,请推出阅读模式阅读完整内容

『加入书签,方便阅读』

上一页 目录 下一页

博仕书屋阅读榜

博仕书屋新书推荐