集群存储:让存储进入“动车时代”

时间:2010-05-02   来源:   网友评论:0   人气: 237 作者:

集群存储不同于传统的SAN和NAS 架构,它就像一列高速驰骋的“动车组”,车厢增加了,速度也丝毫不受影响。这就是集群存储,容量扩展的同时,性能同步提高。

  ■ 本报记者 郭平

  为非结构化数据而生

  信息高速增长势不可挡。据IDC的报告显示,现在全球数据量每18个月就要翻一番,每年全球产生的数据量已经高达40EB(1EB=1000PB)。而这些疯狂增长的数据主要来自非结构化数据。结构化数据主要是指那些数字的或能用统一的结构来表示的数据,如存储在数据库中的数据,这些数据基本上是以块(Block)的形式呈现;不言而喻,非结构化数据是指那些无法用数字或统一的结构来表示的数据,像文本、图像、视频、音频、报表、网页等都是非结构化数据,它们大多以文件(File)的形式保存;另外,还有一种介于结构化和非结构化之间的半结构化数据,电子邮件就是半结构化数据。正是网络的发展和数字化程度的提高,使我们的生活发生了变革,更重要的是,企业的业务数据类型正在发生着巨大的变化,非结构化数据所占的比例越来越高,而且增长速度远超过结构化数据。

    根据Gartner的统计,2008年,基于文件的存储系统容量出货量以微弱的优势首次超过了基于块的存储系统容量的出货量。根据以上趋势,到2012年,基于文件的存储系统容量将占到总容量的70%。而IDC也同时预测,鉴于基于文件类型的非结构化数据的增速极快,到2012年,全球存储市场的总出货量中将有80%的容量被文件级数据所覆盖。

  如此看来,非结构数据快速增长且占据总数据量的多数已毋庸置疑。而摆在企业用户面前的难题是如何去应对这些无法预计的数据存储需求,同时,过去传统的存储架构基本上是为块级存储而设计的,很难适应当前存储的变化和新的需求。因此,集群存储应运而生,并迅速发展起来。

  捷华润公司技术经理陈爽认为,数据规模的爆炸性增长和由此产生的对存储I/O性能的更高要求使集群存储有了更广阔的发展空间。无疑,高性能、高容量以及可扩展性是集群存储得以发展的最得人心的特征。

  NetApp公司大中华区总经理陈文俊则从另一个角度阐述了集群存储发展的驱动力,他认为,运行于Linux和Unix上的计算集群具有极高的存储要求,性能要求通常在每秒GB级范围内,而容量可以增加到PB级。为避免热点并且最经济,人们非常希望能够在不中断应用的情况下,在存储系统之间或不同类别存储之间移动数据,并可以方便而有效地管理存储环境。

  惠普相关人士则认为,随着文件级存储市场的发展,集群NAS在很多文件级的应用中,比如数据文件检索,拥有着极大的优势,这也将成为驱动集群NAS系统发展的重要原因。

  对于集群存储,专注于集群存储领域的Isilon公司中国区技术部总监杨峰认为,一般来说,集群存储有两种实现方式。一种是在现有硬件基础架构上加上软件,典型的代表是SAN架构+并行文件系统。这种架构是折衷的解决办法,面向的是已经采用了大量SAN、NAS架构的存储用户。在现有硬件架构之上+并行化文件系统,并不能跨越原有硬件架构的局限性,只不过是局部的改良而已。另一种是专用集群存储,采用独特的开放式架构,通过分布式操作系统实现集群存储,这是完全并行化的解决方案,从硬件到软件都实现了并行化。

  就像开上了“动车组”

  集群存储是有别于传统的SAN和NAS的一种新的存储架构。传统的SAN与NAS分别提供的是数据块与文件两个不同级别的存储架构,而集群存储是主要面向文件级别的存储系统。因此,也常常被称为集群NAS。

  杨峰认为,SAN系统具有很高的性能,但是构建和维护起来很复杂。由于数据块和网络需求的原因,SAN系统也很难扩容。NAS系统的构建和维护虽然比较简单,但由于其聚合设备(又称为NAS头)是其架构上的瓶颈,造成其性能很有限。集群存储集中了SAN和NAS的优点,且具备它们不具有的优点。在大多数使用集群存储的案例中,随着存储系统的扩容,性能也随之提升,理论上,一个大的集群存储的性能往往胜过一个SAN系统,但是价格却比SAN更加具有优势。集群存储和NAS的概念是在文件系统层面上的,而SAN是在LUN层面上的,集群存储可以利用SAN环境实现。因此,集群存储与SAN解决的问题不同。如果一定要比较这两者的优缺点的话,可以说,SAN做到的是多个服务器节点可以同时看到SAN环境中的同一个LUN,还不能做到多服务器节点间的文件级共享。集群存储在性能、可靠性及扩展性等多个方面都远远优于传统的NAS。

  华为赛门铁克公司全球存储行销部部长姜天露认为,尽管NAS技术是存储文件等非结构化数据的首选方案,但传统的NAS设备会形成新的“信息孤岛”。在企业数据中心,NAS通过IP网络帮助用户实现了多服务器数据共享的功能,但由于业务以及数据的大量激增,尽管单台NAS目前的最高容量也已经达到了PB级,但仍然难以满足要求。面对越来越多的数据,用户只好不断地购买NAS存储,而越来越多的NAS存储就像以前的DAS和SAN那样形成了新的“信息孤岛”,多文件系统、多命名空间、多个挂载点给企业的IT维护人员带来了不小的麻烦。因此,姜天露认为,集群NAS是存储向集群化发展的必然方向。其实不管是NAS还是SAN,这种不断向上发展的方法几乎都已走到了尽头。看看CPU技术,不也从不断地提高频率而变为不断地增多内核了吗?关于集群存储的优势,他认为不外乎两点。一是灵活性,这是集群存储最明显的优势。用户可以根据当前的需要来购买存储,需要多高的性能、多大的容量,都可以自由选择,也就是按需购买,即买即用,而不是一下子就买一台非常庞大的设备,支付非常高的成本。二是可管理性,因为不管用户购买了多少个控制器,也不论购买了多少磁盘,它看起来还是一套系统。

  陈爽认为,相比SAN和NAS,集群NAS具有更好的横向扩展能力以及简便的管理和低维护成本。说到横向扩展(Scale-out),这是近两年在业界出现频率较高的词汇,在存储中,横向扩展是指存储具有模块化的结构,其扩展容量的同时,性能也呈线性增长,用户最初只需部署能满足眼下需要的容量和性能,也就是按需配置,之后可根据应用的需要逐渐增加容量,当然性能也随之增加。与之相反的是一般传统存储的纵向扩展(Scale-up),也称向上扩展,这种存储设备扩展时往往增加了容量,降低了性能,并且可扩展的空间也很有限。集群NAS则是横向扩展的存储,Isilon就称其集群存储产品为横向扩展NAS。

  集群存储与传统的SAN、NAS的区别在业界有一个很形象的比喻,即SAN和NAS就像传统的火车,一列火车能承载的乘客数量(即存储容量)完全取决于火车头的功率(即机头的性能),当火车的车厢增加后(即在允许范围内扩容),火车的速度自然也就降低了。而集群NAS(或横向扩展NAS)就像最新的动车组,每节车厢都有自己的引擎,当需要增加车厢时,整列火车的动力也相应增加了,只要条件允许(如站台长短,相当于机房),车厢数就没有限制。

  可以想见,集群存储的这些特点带来的是用户初次采购成本的降低、系统的灵活性和简单管理性。HDS亚太区内容及文件服务总监Sunil Chavan就认为,集群NAS的价格是其独特的优势,用户不必投入巨资,而采用“按需购买、渐进扩展”模式,这是中型企业关注的一个主要问题。

  竞争促进市场成熟

  对于一个新兴的市场,总是有一些先驱者来耕耘开拓,当一些实力雄厚的大厂商开始进入这个市场时,往往预示着这个市场已经迎来了大发展的阶段,而市场竞争也会由此拉开帷幕。集群存储现在正处在这一时期。

  4月7日,惠普存储推出了可横向扩展的P4000G2和X9000产品。这两款产品均来自惠普之前收购的两家存储厂商。2008年10月,惠普以3.6亿美元收购了LeftHand,增强了其存储虚拟化和iSCSI能力,为日后进入可横向扩展存储领域奠定了基础。接着,2009年11月,惠普又出手将与其有密切合作的IBRIX公司收为己有。IBRIX的横向扩展NAS平台和IBRIX Fusion能够极大地扩展性能、容量和管理能力。毫无疑问,这两家公司的加入,将使惠普的集群NAS大大向前跨了一步。惠普存储产品部产品总监范圣俭表示,随着应用对系统性能需求的逐步增加,以及数据中心应用的广泛发展,会有越来越多的企业考虑到集群NAS系统的优势,因此,从长远来看,集群NAS发展的前景将会越来越广。

  今年2月,IBM发布其首款集群NAS存储系统SONAS(Scale Out Network Attached Storage),正式吹响了杀入集群NAS领域的进军号。尽管这款产品目前还没有在中国发布,但已经备受关注和期待。其实,IBM此前就已经凭借XIV产品进入到横向扩展领域,2008年1月,IBM曾以3.5亿美元收购了一家以色列存储公司XIV,并通过不到1年的整合就正式推出了IBM XIV产品,这是一款采用横向扩展架构的存储产品,IBM认为,它所带来的影响将改变传统存储的规则。

  NetApp公司一直是传统NAS领域的领先厂商,不过对于集群NAS,NetApp也一直有不俗的表现,尤其是一些成功的案例使NetApp的集群NAS出了风头。当电影《阿凡达》大获成功后,人们发现,在为电影动画渲染等做出巨大贡献的数据中心里,也有NetApp集群存储的功劳。

  Isilon公司是专注于集群存储领域的厂商,它的IQ横向扩展NAS在业界处于领先水平,其独有的操作系统OneFS目前已经到了第五代,最多可支持144个存储节点。进入中国市场后,Isilon在石油天然气、生命科学、互联网、电视台等行业赢得了不少用户的青睐。

  华为赛门铁克公司是存储领域里的新兴厂商,但其雄厚的技术背景和资金实力,注定它进入存储领域的起点就非常高。集群NAS是华为赛门铁克很重要的产品线,尽管其Oceanspace N8000产品推出时间不长,但已经有了成功的应用,具备很强的竞争力。

  BlueArc公司是集群NAS领域公认的先进厂商,它的著名产品Titan在电影《阿凡达》等影片中的卓越表现被业界津津乐道。最近,一直代理Panasas集群存储产品的北京捷华润公司成为BlueArc产品在中国的代理。其实,我们对BlueArc的产品并不生疏,HDS公司与BlueArc一直是互相OEM的合作伙伴,从HDS的高端NAS产品中就可以了解到BlueArc产品的特点。

  EMC在集群NAS方面也有产品支持,据EMC介绍,其Celerra系列都支持集群NAS,至少支持2个NAS机头(也称做NAS刀片或NAS控制器),其中NS-960最多支持8个刀片,是业界单机支持刀片最多的产品。

  在国内存储厂商中,也不乏一些钟情于集群存储的厂商,像九州初志、蓝鲸、龙存等,都在这方面开展了研发和应用推广工作。

  另外,今年年初,Dell公司宣布将收购集群存储厂商Exanet,使集群存储阵营又添新的强劲的竞争者。有以上这些厂商的参与竞争,注定这一领域将不会消停,同时,我们也期待这一市场尽快走向成熟。

  目前,集群存储的应用正被广泛挖掘。姜天露认为,集群存储比较适合两种类型的应用:一类就是对性能有特殊要求的应用,如高性能计算领域,典型的包括卫星气象云图、石油勘探等;另一类就是低成本、超大容量需求的,如一些监督、归档类的应用,包括短期文件归档存储,银行监督稽核应用等。此外,在互联网行业,集群存储的应用也越来越多。未来,集群存储将越来越多地应用于云存储中,成为云存储的一部分。

  对于集群存储中目前存在的问题,陈爽认为,集群NAS能否支持在不同磁盘介质间合理而有效地分层存储数据已变成一个十分突出的问题,目前许多集群NAS厂商对磁盘介质的支持类型还比较单一,即使能支持不同磁盘介质,也只能让不同介质类型的磁盘各自使用,无法有机地结合在一起使用。另外目前集群NAS都采用开源或私有的文件系统,缺少必要的标准,带来了兼容问题。不过,pNFS作为标准已经被确立,相信很快各集群NAS厂商将推出支持pNFS标准的产品。

  链 接

  集群存储

  目前,业界对于集群存储产品还没有一个统一的标准,因此,各厂商所提供的产品都宣称具有独特的功能。一般来说,所谓集群存储就是一种开放式的存储架构,它采用分布式操作系统,能将多台物理存储设备中的存储空间聚合成一个能够给应用服务器提供统一访问接口和管理界面的存储池(也叫统一命名空间),应用可以通过该访问接口非常容易地管理存储池后端物理存储设备上所有的磁盘,充分发挥存储设备的性能和磁盘利用率。数据将会按照一定的负载均衡策略,从多台存储设备上存储和读取,以获得更高的存储性能。

  从以上定义中可以看出集群存储有六个非常关键的特点:

  1. 开放式架构(高扩展性)

  它针对集群存储内部构成元素而言。一般集群存储应该包括存储节点、前端网络、后端网络等三个构成元素,每个元素都可以非常容易地采用业界最新技术而不用改变集群存储的架构,且扩展起来非常方便,像搭积木一样进行存储的扩展。特别是对于那些对数据增长趋势较难预测的用户,可以先购买一部分存储,当有需求的时候,随时添加,而不会影响现有存储的使用。

  2. 分布式操作系统

  这是集群存储的灵魂所在。所有对集群存储的操作都经由分布式操作系统统一调度和分发,分散到集群存储各个存储节点上完成。使用分布式操作系统带来的好处是各节点之间没有任何区别,没有主次、功能上的区别,所有存储节点功能完全一致,这样才能真正做到性能最优。

  3. 统一命名空间

  统一命名空间在很多厂家的存储概念中都出现过。在集群存储中,统一命名空间强调的是同一个文件系统下的统一命名空间。它同样可以支持上PB级别的存储空间。如果是通过将若干有空间上限的卷挂载到某一个根目录的方式来达到统一命名空间,其效率和出现存储热点时的性能将会大大低于把上PB级别的存储空间置于同一个文件系统下管理的统一命名空间。

  4. 易管理性

  目前存储业界的管理方式都是通过各厂商的管理工具,或通过Web界面进行管理和配置,往往客户端还需要安装相关软件才能访问到存储上的空间。随着需要管理的存储空间逐渐增大,管理存储的复杂度和管理人员的数量也将会随之增加。而集群存储应该提供一种集中的、简便易用的管理方式,对客户端没有任何影响,采用业界标准的访问协议(比如NFS,CIFS)访问集群存储。

  5. 负载均衡

  集群存储通过分布式操作系统的作用,会在前端和后端都实现负载均衡。前端访问集群存储的操作,通过几种负载均衡策略,将访问分散到集群存储的各个存储节点上。后端访问数据,通过开放式的架构和后端网络,数据会分布在所有节点上进行存放和读取。

  6. 高性能

  关于高性能领域,目前对集群存储的讨论还仅局限在高带宽、高并发访问的应用模式下。毫无疑问,集群存储对于该类应用可以提供比传统存储架构更优的性能。但目前应用除了高带宽、高并发访问类的之外,还有高IOPS、随机访问、小文件访问以及备份归档等其他类的应用,集群存储应该在以上领域同样提供高性能的解决方案。(Isilon公司中国区技术部经理杨峰提供)


 

文章评论