数据结构——Raid2.0、ErasureCode、分布式及开源
硬件平台之上的软件,也在风起云涌的变化着。传统存储领域可炒作的概念已经没有了,然而创新又迟迟未见。Raid2.0被几家厂商在炒作,但终归也是RaidEE技术的升级翻版。另外, Raid2.0与现在多数技术一样,只是提升了相对性能,而没有提升绝对性能,也就是当磁盘达到一定数量的时候,这项技术才会显示出优势,但是依然赶不上相等数量的磁盘在传统模式下的绝对性能。Raid2.0对数据的处理,已经不亚于一个文件系统了,过多的数据碎片影响了绝对性能,但是大量的磁盘堆砌又可以掩盖这一事实。其所获得的唯一一个绝对好处是重构时间的大幅降低,然而却牺牲了平时的绝对性能。
Erasure Code技术也不是什么新鲜事。Raid6以及RaidDP技术很早就出现了,那时候人们已经发明了可以容忍更多磁盘同时损坏的技术,只不过受限于随机写性能而没有将其商用。但是时过境迁,大数据时代读多写少,再加上数据量大,RaidDP(DoubleParity)、RaidTP(TripleParity)甚至允许更多磁盘同时损坏的算法,就又冒出头来了。
Scale-Out是传统存储领域对"分布式"的一个包装词,然而传统存储理解的分布式和互联网及开源领域所认识的分布式骨子里还是不同的。传统存储厂商的分布式不是廉价的分布式,它们的分布式完全是为了解决Scale-Up模式的天花板;而互联网和开源的分布式骨子里为的就是廉价。表现形态也不同,前者虽然实质上也是x86服务器+分布式软件管理层,但是依然略显高大上。
开源的风潮体现在最近的一个新概念里,那就是所谓"软件定义"了。软件定义让二三线厂商师出有名,直接挑战传统一线大厂的权威地位,这一点从近期一些二三线厂商的直截了当的露骨演讲即可知道,矛头直指一线垄断大厂,似乎在当头棒喝"凭什么你们就是高大上"。
用户体验——接口、访问方式及展现
在对存储的访问接口方面,新的访问接口近几年在互联网的带动下也爆发式增长。传统领域一直在鼓吹所谓"统一存储"鼓吹了近十多年,早就炒烂了。对象、key-value、文件、块是目前来讲主流的4种访问形式,其中文件又包含多种子类型比如NFS、CIFS以及各种分布式文件系统访问协议,块又分为FC、SAS、iSCSI。不管访问形式如何,它们本质都是一样的,都是对一串字节的请求和回复,只不过这串字节在不同应用场景下的归类不同罢了。
在用户体验方面,传统存储做的较差。但是随着互联网风潮来袭,重视用户体验、应用感知、QoS等更加接近用户层面的功能越来越受到重视。笔者之前所设计的存储软件套件SmartX Insight就是从用户体验方面来入手,增强存储系统在整个系统内的"存在感",改变传统存储一副道貌岸然的样子。我想这样更有利于黏住用户,从而扩大及拓展存储系统的生存空间和时间。
闪存与数据中心——SATA/PCIE及应用场景
目前来看,数据中心对Flash的渴求主要集中在几个固定的应用场景,前端比如 CDN,ISP的带宽是非常贵的,必须充分利用,所以硬盘必须不是瓶颈。后端则是各级缓存场景,包括各类分布式数据库系统、分布式文件系统的前端基本上都是放了一级或者两级甚至更多级的缓存,RAM毕竟还是很贵而且容量有限,主要用于第一级缓存直接应对前端的压力,Flash则可趁机占领一部分后置缓存空间。
数据中心对SATA接口SSD的应用占据了总体形态的大概90%,剩下的10%主要是PCIE接口的Flash,前者基本上被Intel独占,后者则是花开几朵,其中也不乏国内厂商。
PCIE Flash是大势所趋,尤其是支持NVMe标准的设备。但是目前的形态却不被看好,别看当下多家在此领域角逐。当下形态存在的问题是维护困难、版型太大,这些均不符合数据中心对硬件资源的要求——一个是维护方便,另一个就是资源性能和容量粒度要尽可能低以便于灵活拼搭。而基于SFF8639接口标准的设备相信马上就会遍地开花。综上所述,各种新技术对存储系统的方方面面产生了很大影响,如今IT界概念频出,五色缤纷,众多的存储厂商们唯有分析历史、分析当前,才能看清未来。
推荐经销商