本站提供免费毕业论文范文,硕士论文范文参考!
发布时间:2019年04月08号,星期一 快速评论
2 关键技术研究 2.1 云架构相关技术 2.1.1 大数据及相关知识随着新一代社交网络、数字城市等大规模互联网应用的迅猛发展[31]。由于新一代具有、业务增长速度快、数据存储量大等特点已快速的应用至生活的各个领域中[32]。据权威机构的统计,至2016年,Facebook社交网站上每天新增120TB数据,并且已存储了250PB的数据[33];在2010年淘宝网的B2C业务增长了4倍,其数据中心每天需要处理500TB数据,并且存储了14PB数据[34]。除此之外,根据2006年IDC对200家企业的统计,传统企业的软硬件维护成本高昂,而部署一个新的应用系统需要花费5.4周,并且部分企业的信息技术人力成本达到1320美元/每人/每台服务器[35]。OXb知览论文网
为了解决上述问题,Apple、Amazon、Google等大型IT公司提出了“大数据”方案。根据美国国家标准与技术研究院(NIST)的定义[36],作为信息产业的一大创新,大数据方案和模式一经提出便得到各界人士的广泛关注。其中MapReduce[37]等新型并行编程框架简化了海量数据处理模型。Amazon等公司的大数据平台提供可快速部署的虚拟服务器[38]。Salesforce公司的客户关系管理(CRM,customer relationship management)服务[39]等大数据服务,实现了应用程序的泛在访问。Google公司的App Engine[40]大数据开发平台为大数据服务提供接口。与此同时,国内外学者对大数据的研究也在不断的深入中[41-42]。OXb知览论文网
通过大数据的应用背景并结合上述比较,可总结大数据的特点为[36]:(1)弹性服务。(2)资源池化。(3)按需服务。(4)服务可计费。(5)泛在接入。大数据主要就是云架构计算技术,并且云架构计算是分布式计算、互联网技术以及大规模资源管理等技术的发展与融合(如图2.1所示),其应用和研究涉及资源虚拟化、信息安全、海量数据处理等亟待处理的重要问题。OXb知览论文网
OXb知览论文网
图2.1 大数据技术与相关技术的联系OXb知览论文网
1、数据挖掘技术OXb知览论文网
数据挖掘,是从数据库中便捷地抽取出以前未知的、隐含的、有用的信息,因此也被称为知识发现(KDD)。简单来讲,数据挖掘并不是随便地挖掘数据,而是要从大量数据中,抓取数据,并从中分析加工出我们需要的数据。数据挖掘是知识发现过程的一个重要步骤,是从存放在众多数据库、数据仓库、万维网或者其他信息库中的数据中发现所需数据的过程[43],一个典型的数据挖掘系统的结构如图2.2所示:OXb知览论文网
OXb知览论文网
图2.2 数据挖掘系统结构图OXb知览论文网
数据挖掘主要用于指定所要找的模式类型,通常,数据挖掘可以分为两种:描述和预测[44]。描述性的数据挖掘总结出数据库中的一般规律;预测性挖掘根据描述性挖掘对当前数据进行所属分类的判断来做出预测。其可用于发现的模式类型[45]主要有以下6种:OXb知览论文网
(1)挖掘中的频繁模式、关联和相关。一般来说,频繁项集是指一个事物项的集合,这个事物项集非常频繁地在事物数据集中同时出现,比如客户条件与信用指数、学生平时表现与考试成绩、顾客属性与在超市所购买的物品等等。OXb知览论文网
(2)概念/类描述:特征化和区分。数据特征化是目标类数据的一般特性或特性的汇总,如某学校为了研究学生最喜欢的菜的类型,可以从菜品销量数据库中查询每个菜品销量来实现。结果也可以描述成他们之间的某种关系或者规则。目标类和对比类由用户自己确定,而对应的数据则通过数据库进行索引查询。OXb知览论文网
(3)聚类分析。聚类的主要方法是归纳,它不需要提前进行规则的学习,而且也不考虑已知的类标记。OXb知览论文网
(4)分类和预测。分类是数据挖掘中一个非常重要的过程,它建立一个能够找出、描述并区分数据的类或概念的模型(或函数),以便能够使用模型(或函数)对类标号未知的对象类进行类标号的预测。本文对河北省邢台县白岸乡地区滑坡地质灾害方面的研究,正是属于数据挖掘中的聚类,建立模型后,对未知分类号的记录进行类标号的预测。而预测则是对无类标号样本的评估,它建立和使用一个预测模型,评估出该类型样本可能具有的属性或所在值的区间。预测的主要问题是分类和回归,它们处理的数据类型各不相同,分类主要对离散或标称类型数据的预测,而回归则主要处理范围是连续值和有序值。分类和预测技术已经在各领域有着广泛的应用,包括借贷参考、成绩判定、灾害预测等等。OXb知览论文网
(5)演变分析。数据演变分析描述对象行为随着时间的变化,表现出的变化规律和趋势,并建立这种变化的模型,来对对象行为演变过程进行分析。演变分析也已经应用于很多区域,在金融领域,对股票市场规律曲线的演变分析,能够给决策者提供很好的参考。OXb知览论文网
(6)离群点分析。数据库中的一些数据,有时候会表现出与本数据库中绝大多数数据不同的特性,这种类型的数据就叫做离群点。大部分离群点,由于他们脱离的常规的轨道,与大多数数据表现出的特性不相同,经常会被舍弃或删除,但在某些特殊应用中,恰好需要对这部分数据进行研究,因为它们的这种离群特性往往更具有研究意义。OXb知览论文网
2、数据挖掘的过程OXb知览论文网
数据挖掘的过程主要包括以下几个方面:OXb知览论文网
(1)确定数据挖掘目的。进行数据挖掘,最首要的任务是了解清楚挖掘的目的,弄清楚我们要挖掘的内容是什么。虽然数据挖掘的最后的模式不能预测,但是我们研究的问题是可以预测的,所以我们必须明白自己究竟需要从数据中挖掘出来什么内容,清晰地明白自己的挖掘目的,才能从中挖掘出自己需要的数据。OXb知览论文网
(2)需要挖掘数据的准备。数据的准备又包括:数据的清理,即清除数据中的噪声或孤立点数据;数据的集成,即来自多个数据源的不同数据进行集成;数据的选择,即从数据库中查找与分析与任务有关联的数据。OXb知览论文网
(3)数据的挖掘。根据自己选择的数据挖掘算法,对已经过预处理的数据进行挖掘和分析。OXb知览论文网
(4)模式评估与知识表示。OXb知览论文网
3、数据聚类技术OXb知览论文网
分类是数据挖掘中非常重要的一个分支。简单地来说,分类就是利用已知的一些数据属性和类别,构造一个分类器或者叫做类属标号,对类标号未知的新加入的记录,进行类别判断的过程。数据分类分为两个步骤:OXb知览论文网
Step1.每个分类都有自己的一个区别于其他分类的类标号,它们具有离散性和无序性。在这一步中,每一个训练元组的类标号已被告知,因此这一步称作“监督学习”,这也是分类和聚类的区别所在。分类过程的第一步是一个映射的过程,它确定了每个元组的唯一分类,对每个给定的元组x,都有唯一的与之对应的关联类标号y,这正是一个 的映射,在数据挖掘过程中,这个映射常常以分类规则、决策树或数学公式等多种形式出现。OXb知览论文网
Step2.使用第一步中学习得到的分类器对新加入的元组进行分类。首先需评估分类器的准确率,这需要一个独立的由检验元组和相关联的类标号组成的检验集来检测,因此这个检验集将不参与分类器的构建。分类器在某检验集上的精确度是分类正确的检验元组和总的检验集元组之比。如果认为分类器产生的规则准确度达到标准,那就可以用这个分类器对未来的类标号未定的元组进行类别的判定。分类的步骤如图2.3所示。图中非常形象的展示了分类的两个步骤:首先对于大量的训练数据,自定义一个合适的分类算法,根据算法设计出一个分类模型,即分类器,尽可能地将每一个有概率出现的结果进行分类的预测。然后使用一部分已知结果的属性,对这个分类器的准确度进行测试,准确度到达一定标准才能进行第二步。最后通过利用已获得的分类器来对未分类数据的类别进行预测。OXb知览论文网
OXb知览论文网
图 2.3 分类的步骤OXb知览论文网
2.1.2 大数据的体系架构如图3.2所示,大数据的体系架构可分为用户访问接口、服务管理、核心服务等3层。其中用户访问接口层实现客户端到云的访问。服务管理层为确保核心服务的可用性、安全性以及可靠性提供支持。核心服务层是大数据体系架构的核心,其负责满足各种多样化的不同的应用需求。OXb知览论文网
OXb知览论文网
图2.4 大数据的体系架构OXb知览论文网
1、核心服务层OXb知览论文网
通常大数据核心服务通常可以分为3个子层:(1)基础设施即服务层(IaaS, Infrastructure as a Service);(2)平台即服务层(PaaS, Platform as a Service);(3)软件即服务层(SaaS, Software as a Service)。对3层服务的特点比较如表2.1所示。OXb知览论文网
表 2.1 IaaS、PaaS、SaaS的比较OXb知览论文网
服务对象 服务内容 使用方式 系统实例 关键技术 IaaS 需要硬件资源的用户 提供基础设施部署服务 使用者上传数据、程序代码、环境配置 Amazon EC2、Eucalyptus等 数据中心管理技术、虚拟化技术等 PaaS 程序开发者 提供应用程序部署与管理服务 使用者上传数据、代码程序 Google App Engine、Microsoft Azure、Hadoop等 海量数据处理技术、资源管理与调度技术等 SaaS 企业和需要软件应用的用户 提供基于互联网的应用程序服务 使用者上传数据 Google Apps、Salesforce CRM等 Web服务技术、互联网应用开发技术等OXb知览论文网
2、服务管理层OXb知览论文网
服务管理层对核心服务层提供可靠性、可用性以及安全性的保障。服务管理包括安全管理以及服务质量(QoS,Quality of Service)等。虽然大数据可根据根据客户需要提供可靠且较为廉价的个性化服务。但是大数据平台结构复杂而且规模庞大,因此很难满足服务质量需求。通常用户需要与大数据服务提供商协商,从而达成服务水平协议(SLA,service level agreement)来满足对服务质量的需求。OXb知览论文网
此外,大数据数据中心采用集中式管理资源的方式来解决用户较为关心数据的安全性问题,使得大数据平台存在单点失效问题。因此会存在一些突发的情况对保存在数据中心的重要数据泄露或者丢失。在此,研究在大数据的体系结构下数据的保护和安全性问题是大数据在各个领域中应用的关键,同时这些技术对于大数据平台的安全、稳定运行也起到至关重要的作用。OXb知览论文网
3、用户访问接口层OXb知览论文网
用户访问接口层实现客户端到云的访问,通常包括Web服务等形式。Web服务的访问模式既便于多种服务的组合,又可为终端设备提供应用程序开发接口。并且统一的大数据接口(UCI,Unified Cloud Interface)实现了不同企业间利用云架构技术协同工作的目标。OXb知览论文网
2.1.3 大数据的关键技术大数据的目标是为用户提供低成本、可靠性高、可用性高的个性化服务。对于大数据的关键技术的研究主要从大数据数据中心设计与管理及资源虚拟化技术、海量数据处理平台及其资源管理与调度技术以及大数据服务的质量保证和安全隐私等三个方面进行探讨。OXb知览论文网
1、大数据数据中心设计与管理OXb知览论文网
大数据的核心是数据中心,数据中心的可靠性与资源规模对大数据上层的服务有重要影响。截止2010年,Facebook的数据中心计算节点数量更是达到60000个,而在2009年,仅仅拥有30000个计算节点[46];Google公司2010年第4季度便投入了25亿美元用于数据中心建设,其中平均每季度投入仅仅约6亿美元[47]。可见Google、Facebook等公司对数据中心的建设十分重视。大数据数据中心相比与传统的企业数据中心具有以下特点[48]:1规模经济。2自治性。3规模可扩展。OXb知览论文网
通过上述对于大数据特点的分析研究,可见对于大数据数据中心的相关研究工作主要集中在两个方面,一方面是研究绿色节能技术,以减少环境污染、进一步提高效能比。另一方面是研究数据中心网络拓扑结构,以高可靠、高带宽以及低成本的方式来连接大规模大数据节点。OXb知览论文网
(1)数据中心设计技术OXb知览论文网
当前大型大数据数据中心由成千上万个网络计算节点来构成,并且计算节点的数量还在不断的增长,随着计算节点数量的增长对于云就算数据中心的可扩展性和容错能力带来新的问题。可见传统的树型结构的网络拓扑结构如图2.5所示[49],该树型网络拓扑结构存在可扩展性差、可靠性低以及网络带宽有限制等缺陷,导致对于链接在不同交换机的大数据节点来说,其通信网络很容易受到阻塞。OXb知览论文网
为了解决上述传统树型网络拓扑结构带来的问题,国内外的学者提出了VL2[49]、PortLand[50]、DCell[51]、BCube[52]等一些较为新新颖的网络拓扑结构。通在传统的树型网络拓扑结构中加入mesh的构造,使得节点间存在的可扩展性差、可靠性低以及网络带宽有限制等问题得到了很好的改善。OXb知览论文网
OXb知览论文网
图2.5 传统的树型网络拓扑OXb知览论文网
如图2.6所示,本文以PortLand为例来说明网络拓扑结构。通过借鉴Fat-Tree拓扑的思想,PortLand可以由5k2/4个k口交换机连接k3/4个计算节点。PortLand由汇聚层、边缘层、核心层构成。汇聚层交换机连接核心层交换机,每个Pod连接k2/4台核心层交换机。可见汇聚层以及边缘层可分解为若干个含k台交换机的Pod,分属汇聚层以及边缘层(每层k/2台交换机)。边缘层交换机连接计算节点(每个Pod可连接k2/4个计算节点)。其中Pod内部以完全二分图的结构相连。基于PortLand,可以保证计算节点在任何时刻两两之间可无阻塞通信,使得任意两节点之间有多条通路,从而满足了大数据数据中心高带宽以及高可靠性的需求。此外,PortLand同时可将大规模计算节点利用小型交换机连接,既降低了数据中心的建设成本,又带来良好的可扩展性。OXb知览论文网
OXb知览论文网
图2.6 PortLand网络拓扑OXb知览论文网
(2)数据中心管理技术OXb知览论文网
由于大数据数据中心规模庞大,如果设备正常工作就需要消耗大量的电能。据权威机构统计,一个数据中心拥有50000个计算节点,其每年电费达到930万美元,耗电量超过1亿千瓦时[48]。因此需要解决能耗开销问题就要研究有效的绿色节能技术。通过采用绿色节能技术,不仅可以减少二氧化碳的排放,而且能降低数据中心的开销,从而使得生态环境得到有效的保护。OXb知览论文网
目前大数据数据中心的能量消耗问题得到学术界和工业界的高度关注。例如,针对IT设备能耗问题,Nathuji等人提出“VirtualPower:coordinated power management in virtualized enterprise systems”,VirtualPower通过以虚拟机为单位为数据中心提供一种在线能耗管理能力,集成虚拟化平台自身具备的能耗管理策略[53]。大数据数据中心的能源开销据Google的分析表明主要来自不间断电源、IT设备、冷却装置、增湿设备及照明、电动门等附属设备[54]。IT设备和冷却装置的能耗如图2.7所示,其所占的比重较大。因此,针对制冷系统和IT设备的能耗进行研究成为首要目标,以优化数据中心的能耗总量或在性能与能耗之间寻求最佳的折衷。例如,Rao等人研究如何在保证服务质量前提下优化数据中心能耗总量的问题[55]。Pallipadi等人通过调整和控制CPU频率以达到优化IT设备能耗的目的[56]。针对制冷系统能耗优化问题,Samadiani等人出一种多层次的数据中心冷却设备设计思路,通过综合考虑机架和风扇的摆放、空气的流动方向以及空间大小等因素来为数据中心的建设提供理论上的支持[57]。除此此外,还可以适当关闭一些制冷设施或改变冷气流的走向,主要是针对处于休眠的服务器,从而达到降低能耗、节约成本的目的[58]。OXb知览论文网
OXb知览论文网
图2.7 大数据数据中心的能耗分布OXb知览论文网