• Top
    首页 > IT产品和服务 > 第一资讯 > 正文

    数据在改变世界,网络在改变计算

    毫无疑问,数据变成了财富,数据变成了价值。 如何充分利用好数据,将数据的价值最大化,现在成为了数据中心用户的核心竞争力
    发布时间:2018-10-24 09:02        来源:赛迪网        作者:

    【赛迪网讯】我们的生活正在因为数据而改变,数据曾经是我们的负担,我们曾经为了如何取舍数据而犹豫不决,现在随着大数据技术的兴起,人工智能技术的发展,我们对于数据变成了无尽的需求,没有人再为数据的量大而发愁,而是努力在得到更多的数据。

    毫无疑问,数据变成了财富,数据变成了价值。 如何充分利用好数据,将数据的价值最大化,现在成为了数据中心用户的核心竞争力。要想利用数据,用数据来做计算是唯一的途径,为了应对这个需求,现代数据中心的规模正在变得越来越大,计算规模和存储也变得越来越大,几万台服务器、甚至几十万台服务器规模的数据中心已经不是新鲜话题,如何来保障这么大规模的数据中心能够充?#20540;?#21457;挥它的性能,而不是成为电老虎,是现在所有数据中心用户共同面临的挑战。

    在传统的数据中心中,CPU是用来做计算的核心部分,所有的数据都需要被送到CPU,由CPU来做计算。CPU的计算包含了应用的计算、通信的计算、存储的计算等,每一类计算都需要独占的CPU资源、内存资源、网络资源,当我们的数据量越来越大、计算单元越来越多的时候,各项操作就会开始抢占资源,CPU、内存和网络就成为了计算性能的瓶?#20445;?#29305;别是像HPC、机器学习、深度学习、大数据和存储等类型的应用,在计算过程中总会有各种归约操作,最后由某一个CPU再作总结,这就需要将所有的数据由网络中的各个计算单元送到这个CPU,导致了网络?#31561;PU需要花大量的时间来等待数据同步。请参考下图1。而且我们可以看到,在目前的这种以CPU来作为计算核心的架构下,增加CPU的计算能力和数量,或是增加服务器的数量,不但不能解决这个问题,?#22815;?#20351;问题更加恶化,导致更?#29616;?#30340;网络?#31561;?/p>

    QQ20181024-070215

    新的问题需要由新的思路来解决,既然以CPU为计算的核心不能解决这个问题,那么我们就需要了解导致这个问题的症结在哪儿。答案很明显,就是数据。数据的增长导致了计算规模的扩大、数据的增长导致了网络通信的?#31561;?#25968;据的增长导致了存储的容量和性能瓶颈…… 数据带来的问题不是只在CPU、网络、或是存储,而是在数据中心的任何地方。所以我们解决问题的关键就要从数据入手,前面我们也谈到了用数据来做计算是我们的根本目标,现在我们的答案就是以数据为计算的中心,数据在那儿,计算就在那儿。数据在服务器的时候,CPU是主要的计算单元;数据在网络中移动的时候,网络是主要的计算单元;数据在存储中的时候,存储是主要的计算单元……由此而诞生了各?#20013;?#30340;计算技术,如网络计算(In-Network Computing)、存储计算?#21462;?/p>

    Mellanox作为端到端的网络设备提供商,主要专注于网络计算,通过将各种通信相关的计算从CPU?#23545;?#21040;网络中来,将大大的降低CPU和主机内存在通信中的消?#27169;部梢越?#20915;需要将大量的数据归约到某台服务器而导致的网络?#31561;?#38382;题,提升数据中心的计算效率。如下图2所示。

    QQ20181024-070231

    目前Mellanox能提供的网络计算功能主要包括下面几部分:

    RDMA技术,RDMA(RemoteDirect Memory Access,远程直接内存访问)技术直接颠覆了传统的TCP/IP的通信方式,可以直接从网络的传输层将所有的通信相关的计算?#25381;?#32593;卡设备来做,不需要CPU参与任何通信计算,甚至在整个通信过程中都不需要和CPU有任何沟通。具体的操作包括将应用的数据在发送端切割成网络可?#28304;?#36755;的包的大小和在接收端还原成应用的消息(message)、对于数据进行CRC计算和校验、在发送端和接收端建立直接的数据通道、避免了TCP/IP通信时和CPU的频繁沟通,等?#21462;?#30446;前RDMA技术已经被广泛使用到了各种不同的应用当中,如机器学习的各种框架中,TensorFlow、Caffe2、CNTK、NCCL2.0、PaddlePaddle等,都通过对于RDMA的支?#20540;?#21040;了不同幅度的性能提升;在大数据分析的应用中,SparkRDMA可以显著的提升Spark的性能;在数据库应用中,Oracle RAC、IBM DB2、SAP HANA等都通过RDMA技术得到了大幅的性能提升;在存储应用中,各种分布式文件提供,如Luster、GLuster、GPFS和SMB Direct等都运行在RDMA上,ISER(ISCSI over RDMA),CEPH over RDMA,NVMe over Fabric默认必须使用RDMA协议?#21019;?#36755;数据;在HPC应用中,所有的MPI都支持RDMA。 。GPU Direct RDMA技术,这是将RDMA用到GPU计算中来的一个技术。在旧的GPU集?#21644;?#20449;过程中,所有的GPU的数据都需要被拷贝到CPU的内存中,?#32531;?#25165;能对外通信,这样不但性能低,而且消耗很多CPU的资源,导致CPU成为了通信瓶颈。GPU Direct RDMA技术可以直接在GPU内存和远端GPU内存直接建立一个通信通道,直接传输数据,不需要和CPU有任何沟通,既提升了性能,又降低了主机CPU和内存的利用率。这个技术也被广范用到了AI 和HPC中,如NCCL2.0、CNTK和TensorFlow就在使用GPU Direct RDMA技术。SHARP(ScalableHierarchical Aggregation and Reduction Protocol)技术,通过SHARP技术可以将CPU在通信计算中的操作?#23545;?#21040;交换机上来,如Reduce、AllReduce、Broadcast、And、Max、SUM、Barrier等等操作。以机器学习中的主要操作Allreduce为例,通过SHARP技术,所有经过交换机的数据都会在交换机上做Allreduce操作,从这个交换机出去的数据就是汇聚完成后的结果,大大降低了向下一级传输的数据量,经过层层汇聚之后,服务器的得到的数据只是一个已经完成了所有归约操作的数据,直接就可以使用,这样既可以让应用获得更多的CPU计算资源来计算,又有效的解决了大量数据需要送往参数服务器带来的网络?#31561;?#38382;题。在未来,SHARP技术还能将参数服务器的计算工作完全?#23545;?#21040;交换机上来,直接替代参数服务器,用户可以用交换机来做参数服务器,而不必购买价格昂贵的服务器了。NVMe Over Fabric Target Offload技术,在NVMe OverFabric技术规?#29420;錚?#24050;经将RDMA定义为默认的传输协议,其原因是NVMe技术的出现,将磁盘访问的速度由原?#21019;?#32479;?#25165;?#30340;毫秒降低到了微秒级,最新的NVMe磁盘可?#28304;?#21040;低于10微妙的访问速度,同时NVMe Over Fabric技术也重新改写了传统的存储访问方式,大大简化了存储访问的软件协议栈,提升了从Initiator端到target端的通信效率。目前的最大瓶?#26412;?#26159;在NVMe Over Fabric的Target端,当我们需要写数据到Target里的时候,需要将数据由网络先拷贝到系统内存,?#32531;?#22312;由系统内存拷贝到NVMe磁盘;当我们需要从NVMe磁盘读取数据的时候,我们需要做反向的操作。这个操作?#35748;?#32791;了CPU的资源,又增加了读写数据的延迟,同时CPU的计算能力可能成为存储的瓶颈。通过NVMe Over Fabric Target Offload技术,可以直接跳过这些拷贝,通过网卡硬件直接向NVMe磁盘写数据或从磁盘读取数据,可以在零CPU利用率的情况下达到超过百万次的IOPS,大大提升了NVMe Over Fabric的性能。SHIELD(Self-HealingTechnology)技术,随着应用性能的越来越高,要求的通信效率也越来越高,丢包成为应用不可接受的结果,但是网络出故障总是在所难免。当网络中出现?#25910;现?#21518;,如链路断了,丢包就会发生了,如果长时间的丢包发生,应用就会感知并有可能中?#26174;誦小?#30446;前解决这个问题的方式是由系统的管理软件来侦测故障并采取措施,但是这需要管理服务器等待丢包的信息反馈回来,?#32531;?#20877;做处理。如果对于一个上千节点的数据中心来讲,这个过程需要大约5秒甚至更长的时间,对于应用来言,如果有5秒钟或更长的时间?#20013;?#20002;包,一般都会中?#26174;誦小HIELD技术可以通过交换机硬件来在网络中自动处理这种网络故障,自动选择新的路径将后续的数据送到终点,在网管软件采取措施之前已经有的新的传输路径,从而大大降低了丢包的次数和时间,可以在上千节点的规模下达到低于1毫秒的丢包时间,应用将不会感知这个链路问题,大大增强了网络的健壮性。Socket Direct和Multi-Host技术,这个技术是为了解决在服务器或是存储端的多个处理器或服务器之间共享网络的问题,一直以来,如何简化网络设计是数据中心管理者一直在思考的问题之一,通过Socket Direct和Multi-Host技术可以将一块网卡分成多个PCIe设备,分别支持多个处理器或是多台服务器,从网卡的上?#21368;思?#21270;网络设计,?#36842;?#24635;体网络的简化。同时在同一块网卡下的所有CPU或服务器之间可以直接通过网卡上的嵌入交换机来进行通信,不需要走到物理交换机上去,从而提升小范围内的通信性能。

    除了以上网络计算功能以外,Mellanox也正在积极开发新的网络计算功能,比如安全计算功能、NVMe Emulation功能等,新的功能将会进一步提升数据中心的性能,给用户带来更大的益处。

    Mellanox公司全球市场副总裁GiladShainer先生提到,“采用SHARP技术,在某些HPC和机器学习应用中可以得到10倍以上的性能提升;采用RDMA和MPI加速技术,可以提升35倍以上的性能;采用SHIELD,可?#32422;?#24555;5000倍网络故障的恢复时间;采用GPU Direct RDMA技术,可以在一些HPC和AI应用中得到10倍以上的性能提升。网络计算功能可以在HPC和AI应用中大幅提升数据中心用户的ROI和降低投资成本和运行成本,已经被大量的用户应用在他们的数据中心、计算中心和云计算中心中。Mellanox 200Gb/s和400Gb/s的产品将会在今年年底量产,更多的新技术将会用到新的产品中来,用户可以得到更大收益。”

    Shainer先生还特别提到了Mellanox在中国市场的投入和成长,“Mellanox已经在中国设立了研发中心,将很多关键技术的开发工作放到了中国。在2018年,Mellanox端到端网络产品已经全线进入了中国政府采购网;Mellanox和华为云签订了战略合作协议;Mellanox成为了阿里云的策略合作伙伴共同打造阿里“可信云2.0”;Mellanox也和滕讯?#24179;?#23494;合作,成为腾讯云大带宽、低延迟、高性能网络的重要合作伙伴;同时Mellanox也在刚?#25112;?#26463;的ODCC 2018年会上,成功当选为ODCC专家委?#34987;?#25104;?#20445;?#26410;来将积极参与中国数据中心的建设。“

    合作站点
    stat
    南粤风采36选7好彩1
  • 黑龙江福彩网22选5 重庆老时时基本走势图 时时彩选号看第几位数 江苏时时走势图 百变王牌中奖规则 快乐时时开奖查询 腾讯分分彩1个月赢40w 黑龙江22选5开奖走势图 篮彩大小分是什么意思 新世界棋牌