数据充斥所带来的影响远远超出了预想。
“生命中的一天”(Day in the Life)系列摄影作品的创作人里克·斯莫兰(Rick Smolan)正计划在今年晚些时候推出一个新项目,这个名为“大数据的人类脸孔”(The Human Face of Big Data)的项目将记录数据的采集和使用。斯莫兰是一名狂热分子,他认为“大数据”有成为“人性仪表盘”的潜力,也就是一种能帮助人类与贫穷、犯罪和污染等现象展开斗争的智能工具。
事实上,数据不仅仅正在变得更加可用,同时也正在变得更加容易被计算机所理解。“大数据”发展趋势中所增加的大部分数据都是在自然环境下产生的,比如说网络言论、图片和视频等不受控制的东西,以及来自于传感器的数据等。这些是所谓的“非结构化数据”,通常不能为传统的数据库所用。但是,旨在从互联网时代非结构化数据的庞大“宝藏”中获得知识和洞察力的计算机工具正在迅速发展中。在这种工具发展的最前沿是迅速取得进步的人工智能(AI)技术,比如说自然语言处理、模式识别和机器学习等。
这些人工智能技术能应用于许多领域。举例来说,国内的搜索巨头百度,其搜索和广告业务及都利用了很多的人工智能技术。百度的这两项业务都让“大数据”时代的挑战变得真实起来,它们对数量庞大的数据进行分析,并作出瞬时的决策。
数据洪流
作为互联网公司,百度每天都要面对海量数据。其每天收集几千亿网页,系统每天都产生海量日志,其容量达到百PB级,需要数万台服务器存储,这还不算用户在使用百度产品中自己生成的内容(UGC)和百度客户的数据,这部分数据加起来就有几个PB,仅这些数据就比传统企业的大上成千上万倍。并且随着网页资源增加和搜索质量提升,网页和超链数据将随之急剧增加。
对此,百度技术总监陈尚义表示,百度数据呈现海量、高增长,结构化和非结构化大量并存,记录大小差距巨大,数据一致性强弱不一,数据冷热不均,突发事件常导致数据访问波峰等特点。与此同时,百度业务对数据存储和处理提出极高要求。要求数据高可用、高可靠、高通量、高时效、高并发、高可扩展(简称“六高”),要求百度的数据存储能力和处理能力必须以非常简单的方式获得扩容,以降低维护升级的代价。
按照陈尚义的说法,面对这些特点和要求,百度必须开发自己的大数据存储系统。不过,在百度最早上线数据存储系统时,类似Hadoop和HDFS等开源系统还没有发布,而且还由于开源系统的性能受限、无法充分利用机器的各种资源尤其是新硬件(flash/SSD)资源为特定的访问模式做优化、缺乏满足工业界的稳定性等诸多原因,百度不能使用开源系统。不仅开源系统的用不上,而且市场上也无现成商业化产品可供百度使用,因为任何一个厂商都没有如此海量、如此复杂的数据。
自主开发
百度一开始就自主开发了大数据存储系统,用于存储网页和超链、客户信息和用户产品、系统日志等海量数据,支持Table、Pipe、File和KV等数据类型,满足百度业务的流式和触发式计算、文件存储和访问、低延迟、高并发的需求。在此基础之上,百度还面向广大网民推出云存储系统,在前不久发布的百度易手机上,每个用户可拥有100G的免费存储空间。
陈尚义介绍,为了应对上百PB的数据,满足诸多近乎苛刻的要求,百度作出了巨大努力,“开发了网页更新模型,将对磁盘的随机写转化为批量的顺序写,大大提高了数据的写入速度,缩短了网页数据的更新周期,提高了搜索引擎等产品的时效性;对涉及数据存储和访问的各个方面进行了全局优化;定制Flash,使存储系统直接对Flash的多通道(Multiple Chanel)编程,既提高了并发性,又提高了存储资源的容量;采取多副本存储,以提高系统的可靠性和可用性;创造性地开发了自主知识产权的复制协议(Replication Protocol);采取数据分治策略,保证数据存储的各个部件可以水平扩展,即通过简单地增加服务器就可以达到扩展的目的;采用拆片存储技术,避免单机存储热点记录或大记录所带来的性能瓶颈;运用局部更新大记录的策略,对于大记录分块存储,只有修改了的块才被更新,而不是对整个大文件都重写;采用三层数据存储模型,将热点数据存放于内存,较热的数据存放于flash, “冷”数据存放于磁盘,针对数据访问的特性充分利用各种资源的优势。
陈尚义透露,未来,百度还将开发跨数据中心的存储系统,面临带宽、通信稳定性所带来的压力;在数据量、吞吐量急剧增大的背景下,不断提高时效性、一致性、减低延迟、提高并发;在新的Flash/SSD硬件和万M网络的引入、数据存储和处理瓶颈发生转移的情况下,百度原来积累的存储体系将面临变革。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:百度:大数据时代的自主路线
本文网址:http://www.toberp.com/html/consultation/1083936078.html