igpu异构计算能力是什么处理能力有2000多,算不算好的GPU

近年来,基于CPU+GPU的混合异构计算系统开始逐渐成为国内外高性能计算领域的热点研究方向。在实际应用中,许多基于 CPU+GPU 的混合异构计算机系统表现出了良好的性能。但是,由于各种历史和现实原因的制约,异构计算仍然面临着诸多方面的问题,其中最突出的问题是程序开发困难,尤其是扩展到集群规模级别时这个问题更为突出。主要表现在扩展性、负载均衡、自适应性、通信、内存等方面。
CPU+GPU协同计算模式
CPU+GPU异构协同计算集群如图1所示,CPU+GPU异构集群可以划分成三个并行层次:节点间并行、节点内CPU与GPU异构并行、设备(CPU或GPU)内并行。根据这三个层次我们可以得到CPU+GPU异构协同计算模式为:节点间分布式+节点内异构式+设备内共享式。
节点间分布式
CPU+GPU异构协同计算集群中,各个节点之间的连接与传统CPU集群一样,采用网络连接,因此,节点间采用了分布式的计算方式,可以采用MPI消息通信的并行编程语言。
节点内异构式
CPU+GPU异构协同计算集群中,每个节点上包含多核CPU和一块或多块GPU卡,节点内采用了异构的架构,采用主从式的编程模型,即每个GPU卡需要由CPU进程/线程调用。
由于每个节点上,CPU核数也比较多,计算能力也很大,因此,在多数情况下,CPU也会参与部分并行计算,根据CPU是否参与并行计算,我们可以把CPU+GPU异构协同计算划分成两种计算模式:
CPU/GPU协同计算:CPU只负责复杂逻辑和事务处理等串行计算,GPU 进行大规模并行计算;
CPU+GPU共同计算:由一个CPU进程/线程负责复杂逻辑和事务处理等串行计算,其它CPU进程/线程负责小部分并行计算,GPU负责大部分并行计算。
由于CPU/GPU协同计算模式比CPU+GPU共同计算模式简单,下面的介绍中,我们以CPU+GPU共同计算模式为例进行展开介绍各种编程模式。
在CPU+GPU共同计算模式下,我们把所有的CPU统称为一个设备(device),如双路8核CPU共有16个核,我们把这16个核统称成一个设备;每个GPU卡成为一个设备。根据这种划分方式,我们可以采用MPI进程或OpenMP线程控制节点内的各设备之间的通信和数据划分。
设备内共享式
CPU设备:每个节点内的所有多核CPU采用了共享存储模型,因此,把节点内的所有多核CPU看作一个设备, 可以采用MPI进程或OpenMP线程、pThread线程控制这些CPU核的并行计算。
GPU设备:GPU设备内有自己独立的DRAM存储,GPU设备也是共享存储模型,在GPU上采用CUDA或OpenCL编程控制GPU众核的并行计算。CUDA编程模式只在NVIDIA GPU上支持,OpenCL编程模式在NVIDIA GPU和AMD GPU都支持。
根据前面对CPU+GPU异构协同计算模式的描述,我们可以得到CPU+GPU异构协同计算的编程模型(以MPI和OpenMP为例)如表1所示。
图1 CPU+GPU异构协同计算架构
表1 CPU+GPU异构协同计算编程模型
节点间分布式
节点内异构式
设备内共享式
CUDA/OpenCL
CUDA/OpenCL
CUDA/OpenCL
CPU+GPU协同计算负载均衡性设计
下面以模式2为例简单介绍多节点CPU+GPU协同计算任务划分和负载均衡,模式2的进程和线程与CPU核和GPU设备对应关系如图2所示。若采用主从式MPI通信机制,我们在节点0上多起一个进程(0号进程)作为主进程,控制其它所有进程。每个节点上启动3个计算进程,其中两个控制GPU设备,一个控制其余所有CPU核的并行,在GPU内采用CUDA/OpenCL并行,在CPU设备内采用OpenMP多线程并行。
由于CPU+GPU协同计算模式分为3个层次,那么负载均衡性也需要在这3个层次上分别设计。在模式2的编程方式下,节点内和节点间均采用MPI进程,合二为一,设计负载均衡时,只需要做到进程间(设备之间)的负载均衡和CPU设备内OpenMP线程负载均衡、GPU设备内CUDA线程负载均衡即可。
对于设备内,采用的是共享存储器模型,CPU设备上的OpenMP线程可以采用schedule(static/ dynamic/ guided )方式;GPU设备上只要保证同一warp内的线程负载均衡即可。
对于CPU+GPU协同计算,由于CPU和GPU计算能力相差很大,因此,在对任务和数据划分时不能给CPU设备和GPU设备划分相同的任务/数据量,这就增加了CPU与GPU设备间负载均衡的难度。CPU与GPU之间的负载均衡最好的方式是采用动态负载均衡的方法,然而有些应用无法用动态划分而只能采用静态划分的方式。下面我们分别介绍动态划分和静态划分。
动态划分:对于一些高性能计算应用程序,在CPU与GPU之间的负载均衡可以采用动态负载均衡的优化方法,例如有N个任务/数据,一个节点内有2个GPU卡,即三个设备(CPU和2个GPU),动态负载均衡的方法是每个设备先获取一个任务/数据进行计算,计算之后立即获取下一个任务,不需要等待其他设备,直到N个任务/数据计算完成。这种方式只需要在集群上设定一个主进程,负责给各个计算进程分配任务/数据。
静态划分:在一些应用中,无法采用动态划分的方式,需要静态划分方法,然而静态划分方法使异构设备间的负载均衡变得困难,有时甚至无法实现。对于一些迭代应用程序,我们可以采用学习型的数据划分方法,如先让CPU和GPU分别做一次相同计算量的计算,然后通过各自的运行时间计算出CPU与GPU的计算能力比例,然后再对数据进行划分。
图2 CPU+GPU协同计算示意图(以每个节点2个GPU为例)
CPU+GPU协同计算数据划分示例
假设某一应用的数据特点如图3所示,从输出看,结果中的每个值的计算需要所有输入数据的信息,所有输出值的计算之间没有任何数据依赖性,可以表示成outj=;从输入看,每个输入值对所有的输出值都产生影响,所有输入数据之间也没有任何数据依赖性。从数据特点可以看出,该应用既可以对输入进行并行数据划分也可以对输出进行数据划分。下面我们分析CPU+GPU协同计算时的数据划分方式。
图3 并行数据示例
按输入数据划分
假设按输入数据划分,我们可以采用动态的方式给每个CPU或GPU设备分配数据,做到动态负载均衡,然而这种划分方式,使所有的线程向同一个输出位置保存结果,为了正确性,需要使所有的线程对每个结果进行原子操作,这样将会严重影响性能,极端情况下,所有线程还是按顺序执行的。因此,这种方式效果很差。
按输出数据划分
按输出数据划分的话可以让每个线程做不同位置的结果计算,计算完全独立,没有依赖性。如果采用静态划分的方式,由于CPU和GPU计算能力不同,因此,很难做到负载均衡。采用动态的方式可以做到负载均衡,即把结果每次给CPU或GPU设备一块,当设备计算完本次之后,立即向主进程申请下一个分块,这样可以做到完全负载均衡。按输出数据划分,无论采用静态划分还是动态划分,都会带来另外一个问题,由于每个结果的计算都需要所有输入信息,那么所有进程(设备)都需要读取一遍所有输入数据,动态划分时还不只一次,尤其对于输入数据很大时,这将会对输入数据的IO产生很大的影响,很有可能使IO程序性能瓶颈。
按输入和输出同时划分
由于按输入或按输出划分都存在不同的缺点,我们可以采用输入和输出同时划分的方式进行数据划分,如图4所示。
从输出角度,让所有的计算进程(设备)都有一份计算结果,设备内的线程对结果进行并行计算,每个设备都有一份局部的计算结果,所有设备都计算完毕之后,利用MPI进程对所有设备的计算结果进行规约,规约最后的结果即是最终的结果。
从输入角度,按输入数据动态划分给不同的计算进程(设备),这样可以满足所有的计算进程负载均衡。
图4 CPU+GPU协同计算数据划分示例
CPU+GPU异构集群搭建的总结说明
CPU+GPU集群计算中的一种动态负载均衡设计方法
没有更多推荐了,天极传媒:天极网全国分站
您现在的位置:
腾讯云异构计算:为AI释放更强计算力
Yesky天极新闻
  【天极网IT新闻频道】近几年,异构计算这个词出现的频率越来越高,异构计算相关的技术和应用模式也都得到了快速发展。9月25日,腾讯云正式发布第三代云矩阵,全矩阵26款计算实例,其中,GPU和FPGA等异构计算实例多达7款。
  为什么异构计算这么重要?腾讯云在异构计算的探索上又有着什么不一样的路径?
  1、什么是异构计算?
  传统的计算模式下,是计算的主体。在摩尔定律还成立的年代,CPU的计算能力每18个月就会翻倍,同时工程师们还发展出了以及多CPU等技术。然而近年来,随着硅芯片逼近物理和经济成本上的极限,摩尔定律已趋近失效。但与之相对的却是,互联网的蓬勃发展、信息量爆炸式增长以及AI技术研究和应用普及,都对计算能力的要求变的更高。
  在这种情况下,工程师们发明出将不同类型指令集和体系架构的计算单元组合在一起的计算方式,比如CPU+GPU。CPU用于对系统进行控制,任务分解,调度,而GPU轻松拥有几千个计算单元,每个计算单元可以同时并行地进行计算,再加上强大的浮点和向量计算能力,可以用来完成更繁重的计算任务,这就是异构计算。
  2、腾讯云异构计算产品进化
  腾讯云已经推出了多种异构型。在GPU机型上,也在紧跟行业最新技术,追踪客户需求,力求为客户提供方便快捷部署、计算能力强大、弹性可配置、性价比高的异构服务器。目前为止,腾讯云已经推出GN1、GN2、GN8等多款GPU计算实例。腾讯云在完善现有产品线的同时,也在不停的追踪最前沿的技术,努力缩短新技术推广应用的时间周期,更快的让客户享受科技的进步。
  今年5月,发布了最新的Tesla Volta V100 GPU。基于腾讯云与NVIDIA的良好战略合作关系,腾讯云将推出新型GPU计算型实例GN9,这款实例搭载新一代 Skylake CPU和最新一代NVIDIA V100 GPU,单机最高支持8卡,在GPU计算性能上相比较第一代GN2实例将会有一个极大的提升,单精度浮点运算性能将提升8倍,双精度浮点运算性能将提升140倍,将GPU计算性能推向极致,进一步加速人工智能应用在各行业的落地。
  FPGA作为可编程硬件具有独特的优势,比如硬件可编程,低延时等,在腾讯云计算平台中也有着举足轻重的地位。近年来,随着FPGA 行业快速发展,从特定应用领域开始走向领域。作为国内在FPGA云服务中走得最快的云服务商,腾讯云此前已基于Xilinx和Intel最先进的FPGA技术在国内首先推出FPGA云服务器。同时,基于Xilinx和Intel的合作协议,对腾讯云用户免费提供了硬件开发工具包。
  后续腾讯云还将推出两款新一代的FPGA计算实例,其中基于Xilinx VU9P FPGA卡的FX3实例,单机最高支持8卡,每块卡大约包含250万个逻辑单元,6800个数字信号处理引擎,峰值计算性能相比前一代FX2实例提升3倍;基于Intel Stratix10 FPGA卡的FI3实例,单机最高支持8卡,每块卡大约包含280万个逻辑单元,5760个数字信号处理引擎,单精度浮点运算性能达80TFLOPS。
  对于另外一种异构计算类型ASIC + CPU,腾讯云也在持续关注其发展。
  3、腾讯云异构计算的应用场景
  腾讯云推出最新异构计算全新产品矩阵,从GPU高性能计算到可视化再到人工智能基础设施,为客户提供计算能力强大,弹性可配置,性价比高的异构计算实例。其应用前景极其广泛,适用于深度学习、视频渲染、虚拟化桌面等对计算能力、时延要求极高的场景,同时还能满足分子建模、基因组学等领域对基础设施的高要求。
  以深度学习为例,深度学习在训练阶段涉及大量浮点数值计算,矩阵乘法,向量化等操作,需要处理的数据规模可以高达几个T。随着深度学习层次越来越深,计算量的增长也将随之加大。
  一次训练过程使用CPU需要几天甚至几周才能完成,而使用腾讯云的GPU云服务器,可以小时级完成训练,优势很明显。只有快速完成深度学习的训练过程,才能加快深度学习的迭代速度,帮助企业改进产品,在竞争中胜出。
  在人脸检测、五官定位、模式识别、图像理解等领域都积累完整解决方案和领先技术的腾讯云优图团队,为腾讯云客户提供,语音合成,OCR识别,智能鉴黄,智能P图等多种服务。其中,腾讯优图的人脸识别技术达到世界先进水平,在今年举办的国际权威人脸识别LFW上,优图凭借准确率达到 99.80% 的成绩刷新人脸识别世界纪录。
  基于腾讯云GPU云服务器进行深度学习技术的成熟应用,优图团队将在更广泛的应用场景上输出技术和产品。
  不止于计算,腾讯云GPU云服务器在渲染场景也有着重要应用。渲染型GPU云服务器实例GA2,搭载了基于硬件的虚拟化GPU FirePro™ S7150,借助GPU虚拟化,腾讯云可以对GPU资源进行划分,在具有成本优势的前提下,为客户提供图形渲染的能力。用户可运行多种图形工作负载,如 3D 建模和渲染,图形图像处理,工业设计等,计算性能强大、弹性按需扩展的 GPU 实例是用户在高性能渲染及计算场景的最优选择。
  目前,全球领先的泛传媒产业技术服务商中科大洋已率先接入腾讯云GPU渲染型云服务器,通过远程桌面协议和GPU渲染型实例实现在线实时的电影后期制作编辑,可在任何地点使用多种设备接入。多人本地终端同时工作,分别进行剪辑、字幕、特技、调色、包装等。中科大洋启用GPU渲染型GA2实例,在资源成本下降的同时,实现了产品品质和服务质量的双提升。
  此外,平台部通过视频串流技术和GPU可视化云服务器提供给用户端和端游戏试玩功能,用户不用购买游戏,也不用安装游戏,实现游戏跨终端试玩,有效降低了新玩家体验游戏的门槛,带来了全新的游戏体验,最大化利用云端高性能资源缩短游戏新品触达客户的时间。
  在FPGA领域,腾讯云推出了“云+基因”原生态解决方案,通过对二代测序流程进行硬件加速来解决生物计算的性能瓶颈,将一个全基因组计算时间从纯软件方案的大约60小时降低到26小时以内,并已在某基因客户业务中成功应用。
  在传统通用计算已逐步无力应对大规模、高并发的计算需求的情况下,异构计算被视作人工智能在各行业中落地的关键。腾讯云也将始终保持着对异构计算新能力新技术的敏锐探索,为人工智能落地释放更强计算力。
IT新闻微信公众平台
第一时间获取新鲜资讯
使用手机扫描左方二维码
您可能想看的内容
看过本文的人还看过
大家都在看
* 网友发言均非本站立场,本站不在评论栏推荐任何网店、经销商,谨防上当受骗!
外媒爆料,三星已经与游戏开发商 Nexon 和 PUBG 等出版商签订…
魅族16刚发布,黄章又在论坛安慰老用户,并透露魅族16X将于下个月发布…
近日,韩媒消息表示,三星Note 9将预装PUBG Mobile游戏,…
这8年里,“谷歌回归中国”的话题几个月就要被谈及一次,可哪一次他都没有…
近日,谷歌返华消息高潮迭起,仿佛再一次让投资者和中国网民看到了希望。
人人网CEO陈一舟发布长篇日志,日志中称人人网正面临转型升级。
近日有网友表示支付宝资金被强制转走,支付宝官方已表示将优先补偿用户损失…
360此次将携游戏手机N7亮相2018年CJ展会,目前正在筹备体验官招…
李彦宏在朋友圈表示,如果谷歌决定回到中国,我们正好可以真刀真枪地再赢一…
ChinaJoy上比showgirl还要吸引人的,是努比亚发布的红魔手…
Bronstein今日宣布,已代表拼多多股东对拼多多销售山寨商品一事展…
通过沟通分享形成的社交理念,形成了拼多多独特的新社交电商思维。
市场情报公司 Juniper Research 进行的一项研究表明,通…
外媒爆料,三星已经与游戏开发商 Nexon 和 PUBG 等出版商签订…
苹果公司股价涨势如虹,按照48.3亿的总股本计算,其市值盘中已突破万亿…
每日IT极热寮傛瀯璁$畻杩欏嚑骞达細AMD APU寮曢?鏈?潵瓒嬪娍
10:45:31&&鍑哄?锛氬揩绉戞妧 浣滆

我要回帖

更多关于 gpu异构能力 的文章

 

随机推荐