一种能效优化的MapReduce资源比模型

作者:宋杰;刘雪冰;朱志良;李甜甜;赵大哲;于戈 刊名:计算机学报 上传者:林文炳

【摘要】随着云计算的快速发展,IT资源规模的不断扩大导致能耗问题日益凸显.为降低MapReduce编程模型带来的高能耗,文中研究Map/Reduce任务的资源消费特征及该特征与能效的关系,旨在寻找一种能够指导资源分配和任务调度的资源模型,进而实现能效优化.文中提出任务的能效与任务被分配的资源量无关,而与其被分配的各种资源的资源量比例相关,且存在一个"最佳资源比"使得能效达到最高.基于此,文中首先提出了普适的资源和能效模型,从模型层面证明最佳资源比和能效之间的关系,量化空闲资源量和空闲能耗;随后分析MapReduce编程模型,将普适资源比模型变换到MapReduce下.通过抽象的数据的"生产者-消费者"模式,求解Map/Reduce任务的最佳资源比;最后,通过实验从任务能效和空闲能耗两个角度证明了最佳资源比的存在,并根据实验结果,对MapReduce执行过程进行划分,给出了部分Map/Reduce任务的最佳资源比.最佳资源比的提出和求解将有利于基于该最佳资源比的任务调度和资源分配算法的研究,进而实现Map/Reduce任务能效的提高.

全文阅读

1引言云计算已成为IT服务的主流技术[1],具有较高的成熟度,如亚马逊、Google、Salesforce等知名公司均掌握成熟的云计算技术12[2],并将其进行推广.在众多云计算技术中,MapReduce[3]编程模型最为流行.MapReduce是分布式地并行完成大规模运算的一种有效技术,MapReduce框架完成输入数据的分割、任务调度、资源分配、节点容错、节点通信和结果数据保存等复杂操作,使得应用程序能够便捷地在大量普通配置的计算机上并行执行.MapReduce是当前研究的热点,现有研究或对MapReduce进行性能优化,或修改现有数据分析算法以适应MapReduce模型,或在MapReduce的基础上寻找更为高效的编程模型,而本文将主要从MapReduce作业能效优化的角度展开研究.随着IT设施功率的逐渐增加和MapReduce集群规模的不断扩大,集群能耗过大已经成为云计算面临的一个难题.《纽约时报》估计全球互联网数据中心的用电功率可能达300亿瓦特,相当于30个核电站的供电功率.而数据中心的耗电量仅有6%~12%是被用于网站计算的,其余均在维持服务器工作状态时被无谓消耗3.此外,绿色和平组织预测,到2020年,全球主要IT运营商的能耗将达到2万亿千瓦时,超过德、法、加和巴西等4国的能耗总和4.从环境角度,数据中心在消耗大量电力的同时会产生惊人的碳排放.在美国,100MW发电站会花费6000万到1亿美元并排放5000万吨CO2,目前全球数据中心的CO2排放量相当于阿根廷整个国家的CO2排放量,全球IT产业的碳排放占温室气体总排放的2%[4].在此背景下,如何在数据中心里采用高能效的方式运行MapReduce作业,进而降低能耗实现绿色计算,成为当今研究的热点问题.按照物理学观点,能效是指在能源利用中,发挥作用的与实际消耗的能源量之比.从消费角度看,能效是指为终端用户提供的服务与所消耗的总能源量之比.所谓提高能效,就是指用更少的能源投入带来同等的能源服务,可以认为能效是性能和能耗之比.本研究着重于MapReduce能效优化.之所以选择MapReduce是因为它是云计算环境中主流的编程模型,大多Internet服务商的核心业务均采用MapReduce实现.MapReduce模型有多种实现,如GoogleMapReduce、ApacheHadoop、Map-Reduce-Merge、多核和多处理器系统的MapReduce等.本文选择开源且被开发者和研究人员广泛接受的ApacheHadoop作为云计算环境.当前主流的能效优化思路为负载集中和关闭空闲节点,然而MapReduce集群中的节点不仅完成运算任务,还存储海量数据.节点需提供“Always-On”的数据服务,且由于集群自身特性使开关节点的代价很高,因此无法通过临时关闭节点的“ON-OFF”算法[5-6]实现节能.我们前期研究证明[7],MapReduce集群节点的资源使用率不高,产生这一情况的原因可以归结为节点资源等待,如CPU会因等待I/O操作而阻塞,或等待网络数据传输.因节点资源被动空闲而产生空闲资源,空闲资源越多,空闲能耗越大,能效就越低.我们认为,一个任务所分配的资源越多,执行性能越好,但能耗越高,因此能效未必有所提高;相反的,若资源分配不合理,部分资源过量,则空闲资源也会增加,空闲能耗增加,能效反而降低.我们提出一个假设,当任务的资源分配满足一定比例时,无论分配的资源量多少,任务的能效值不变,且存在一个最佳的比例,使能效最高,我们称这一最佳的资源分配比例为最佳资源比.本文从理论推导和实

参考文献

引证文献

问答

我要提问