• Top
    首頁 > IT產品和服務 > 第一資訊 > 正文

    數據在改變世界,網絡在改變計算

    毫無疑問,數據變成了財富,數據變成了價值。 如何充分利用好數據,將數據的價值最大化,現在成為了數據中心用戶的核心競爭力
    發布時間:2018-10-24 09:02        來源:賽迪網        作者:

    【賽迪網訊】我們的生活正在因為數據而改變,數據曾經是我們的負擔,我們曾經為了如何取舍數據而猶豫不決,現在隨著大數據技術的興起,人工智能技術的發展,我們對于數據變成了無盡的需求,沒有人再為數據的量大而發愁,而是努力在得到更多的數據。

    毫無疑問,數據變成了財富,數據變成了價值。 如何充分利用好數據,將數據的價值最大化,現在成為了數據中心用戶的核心競爭力。要想利用數據,用數據來做計算是唯一的途徑,為了應對這個需求,現代數據中心的規模正在變得越來越大,計算規模和存儲也變得越來越大,幾萬臺服務器、甚至幾十萬臺服務器規模的數據中心已經不是新鮮話題,如何來保障這么大規模的數據中心能夠充分的發揮它的性能,而不是成為電老虎,是現在所有數據中心用戶共同面臨的挑戰。

    在傳統的數據中心中,CPU是用來做計算的核心部分,所有的數據都需要被送到CPU,由CPU來做計算。CPU的計算包含了應用的計算、通信的計算、存儲的計算等,每一類計算都需要獨占的CPU資源、內存資源、網絡資源,當我們的數據量越來越大、計算單元越來越多的時候,各項操作就會開始搶占資源,CPU、內存和網絡就成為了計算性能的瓶頸,特別是像HPC、機器學習、深度學習、大數據和存儲等類型的應用,在計算過程中總會有各種歸約操作,最后由某一個CPU再作總結,這就需要將所有的數據由網絡中的各個計算單元送到這個CPU,導致了網絡擁塞、CPU需要花大量的時間來等待數據同步。請參考下圖1。而且我們可以看到,在目前的這種以CPU來作為計算核心的架構下,增加CPU的計算能力和數量,或是增加服務器的數量,不但不能解決這個問題,還會使問題更加惡化,導致更嚴重的網絡擁塞。

    QQ20181024-070215

    新的問題需要由新的思路來解決,既然以CPU為計算的核心不能解決這個問題,那么我們就需要了解導致這個問題的癥結在哪兒。答案很明顯,就是數據。數據的增長導致了計算規模的擴大、數據的增長導致了網絡通信的擁塞、數據的增長導致了存儲的容量和性能瓶頸…… 數據帶來的問題不是只在CPU、網絡、或是存儲,而是在數據中心的任何地方。所以我們解決問題的關鍵就要從數據入手,前面我們也談到了用數據來做計算是我們的根本目標,現在我們的答案就是以數據為計算的中心,數據在那兒,計算就在那兒。數據在服務器的時候,CPU是主要的計算單元;數據在網絡中移動的時候,網絡是主要的計算單元;數據在存儲中的時候,存儲是主要的計算單元……由此而誕生了各種新的計算技術,如網絡計算(In-Network Computing)、存儲計算等。

    Mellanox作為端到端的網絡設備提供商,主要專注于網絡計算,通過將各種通信相關的計算從CPU卸載到網絡中來,將大大的降低CPU和主機內存在通信中的消耗,也可以解決需要將大量的數據歸約到某臺服務器而導致的網絡擁塞問題,提升數據中心的計算效率。如下圖2所示。

    QQ20181024-070231

    目前Mellanox能提供的網絡計算功能主要包括下面幾部分:

    RDMA技術,RDMA(RemoteDirect Memory Access,遠程直接內存訪問)技術直接顛覆了傳統的TCP/IP的通信方式,可以直接從網絡的傳輸層將所有的通信相關的計算交由網卡設備來做,不需要CPU參與任何通信計算,甚至在整個通信過程中都不需要和CPU有任何溝通。具體的操作包括將應用的數據在發送端切割成網絡可以傳輸的包的大小和在接收端還原成應用的消息(message)、對于數據進行CRC計算和校驗、在發送端和接收端建立直接的數據通道、避免了TCP/IP通信時和CPU的頻繁溝通,等等。目前RDMA技術已經被廣泛使用到了各種不同的應用當中,如機器學習的各種框架中,TensorFlow、Caffe2、CNTK、NCCL2.0、PaddlePaddle等,都通過對于RDMA的支持得到了不同幅度的性能提升;在大數據分析的應用中,SparkRDMA可以顯著的提升Spark的性能;在數據庫應用中,Oracle RAC、IBM DB2、SAP HANA等都通過RDMA技術得到了大幅的性能提升;在存儲應用中,各種分布式文件提供,如Luster、GLuster、GPFS和SMB Direct等都運行在RDMA上,ISER(ISCSI over RDMA),CEPH over RDMA,NVMe over Fabric默認必須使用RDMA協議來傳輸數據;在HPC應用中,所有的MPI都支持RDMA。 。GPU Direct RDMA技術,這是將RDMA用到GPU計算中來的一個技術。在舊的GPU集群通信過程中,所有的GPU的數據都需要被拷貝到CPU的內存中,然后才能對外通信,這樣不但性能低,而且消耗很多CPU的資源,導致CPU成為了通信瓶頸。GPU Direct RDMA技術可以直接在GPU內存和遠端GPU內存直接建立一個通信通道,直接傳輸數據,不需要和CPU有任何溝通,既提升了性能,又降低了主機CPU和內存的利用率。這個技術也被廣范用到了AI 和HPC中,如NCCL2.0、CNTK和TensorFlow就在使用GPU Direct RDMA技術。SHARP(ScalableHierarchical Aggregation and Reduction Protocol)技術,通過SHARP技術可以將CPU在通信計算中的操作卸載到交換機上來,如Reduce、AllReduce、Broadcast、And、Max、SUM、Barrier等等操作。以機器學習中的主要操作Allreduce為例,通過SHARP技術,所有經過交換機的數據都會在交換機上做Allreduce操作,從這個交換機出去的數據就是匯聚完成后的結果,大大降低了向下一級傳輸的數據量,經過層層匯聚之后,服務器的得到的數據只是一個已經完成了所有歸約操作的數據,直接就可以使用,這樣既可以讓應用獲得更多的CPU計算資源來計算,又有效的解決了大量數據需要送往參數服務器帶來的網絡擁塞問題。在未來,SHARP技術還能將參數服務器的計算工作完全卸載到交換機上來,直接替代參數服務器,用戶可以用交換機來做參數服務器,而不必購買價格昂貴的服務器了。NVMe Over Fabric Target Offload技術,在NVMe OverFabric技術規范里,已經將RDMA定義為默認的傳輸協議,其原因是NVMe技術的出現,將磁盤訪問的速度由原來傳統硬盤的毫秒降低到了微秒級,最新的NVMe磁盤可以達到低于10微妙的訪問速度,同時NVMe Over Fabric技術也重新改寫了傳統的存儲訪問方式,大大簡化了存儲訪問的軟件協議棧,提升了從Initiator端到target端的通信效率。目前的最大瓶頸就是在NVMe Over Fabric的Target端,當我們需要寫數據到Target里的時候,需要將數據由網絡先拷貝到系統內存,然后在由系統內存拷貝到NVMe磁盤;當我們需要從NVMe磁盤讀取數據的時候,我們需要做反向的操作。這個操作既消耗了CPU的資源,又增加了讀寫數據的延遲,同時CPU的計算能力可能成為存儲的瓶頸。通過NVMe Over Fabric Target Offload技術,可以直接跳過這些拷貝,通過網卡硬件直接向NVMe磁盤寫數據或從磁盤讀取數據,可以在零CPU利用率的情況下達到超過百萬次的IOPS,大大提升了NVMe Over Fabric的性能。SHIELD(Self-HealingTechnology)技術,隨著應用性能的越來越高,要求的通信效率也越來越高,丟包成為應用不可接受的結果,但是網絡出故障總是在所難免。當網絡中出現故障之后,如鏈路斷了,丟包就會發生了,如果長時間的丟包發生,應用就會感知并有可能中斷運行。目前解決這個問題的方式是由系統的管理軟件來偵測故障并采取措施,但是這需要管理服務器等待丟包的信息反饋回來,然后再做處理。如果對于一個上千節點的數據中心來講,這個過程需要大約5秒甚至更長的時間,對于應用來言,如果有5秒鐘或更長的時間持續丟包,一般都會中斷運行。SHIELD技術可以通過交換機硬件來在網絡中自動處理這種網絡故障,自動選擇新的路徑將后續的數據送到終點,在網管軟件采取措施之前已經有的新的傳輸路徑,從而大大降低了丟包的次數和時間,可以在上千節點的規模下達到低于1毫秒的丟包時間,應用將不會感知這個鏈路問題,大大增強了網絡的健壯性。Socket Direct和Multi-Host技術,這個技術是為了解決在服務器或是存儲端的多個處理器或服務器之間共享網絡的問題,一直以來,如何簡化網絡設計是數據中心管理者一直在思考的問題之一,通過Socket Direct和Multi-Host技術可以將一塊網卡分成多個PCIe設備,分別支持多個處理器或是多臺服務器,從網卡的上行端簡化網絡設計,實現總體網絡的簡化。同時在同一塊網卡下的所有CPU或服務器之間可以直接通過網卡上的嵌入交換機來進行通信,不需要走到物理交換機上去,從而提升小范圍內的通信性能。

    除了以上網絡計算功能以外,Mellanox也正在積極開發新的網絡計算功能,比如安全計算功能、NVMe Emulation功能等,新的功能將會進一步提升數據中心的性能,給用戶帶來更大的益處。

    Mellanox公司全球市場副總裁GiladShainer先生提到,“采用SHARP技術,在某些HPC和機器學習應用中可以得到10倍以上的性能提升;采用RDMA和MPI加速技術,可以提升35倍以上的性能;采用SHIELD,可以加快5000倍網絡故障的恢復時間;采用GPU Direct RDMA技術,可以在一些HPC和AI應用中得到10倍以上的性能提升。網絡計算功能可以在HPC和AI應用中大幅提升數據中心用戶的ROI和降低投資成本和運行成本,已經被大量的用戶應用在他們的數據中心、計算中心和云計算中心中。Mellanox 200Gb/s和400Gb/s的產品將會在今年年底量產,更多的新技術將會用到新的產品中來,用戶可以得到更大收益。”

    Shainer先生還特別提到了Mellanox在中國市場的投入和成長,“Mellanox已經在中國設立了研發中心,將很多關鍵技術的開發工作放到了中國。在2018年,Mellanox端到端網絡產品已經全線進入了中國政府采購網;Mellanox和華為云簽訂了戰略合作協議;Mellanox成為了阿里云的策略合作伙伴共同打造阿里“可信云2.0”;Mellanox也和滕訊云緊密合作,成為騰訊云大帶寬、低延遲、高性能網絡的重要合作伙伴;同時Mellanox也在剛剛結束的ODCC 2018年會上,成功當選為ODCC專家委員會成員,未來將積極參與中國數據中心的建設。“

    專題訪談

    合作站點
    stat
    南粤风采36选7好彩1