本站提供免费毕业论文范文,硕士论文范文参考!
发布时间:2019年04月11号,星期四 快速评论
2.3.4基于人口统计信息的推荐 基于用户统计信息的推荐技术首先根据用户的个人属性信息进行分类,然后根据不同的分类结果将不完全相同的用户信息推荐给目标群体,如图2.23所示。xdW知览论文网
xdW知览论文网
图2.23基于用户统计信息的推荐技术xdW知览论文网
基于用户统计信息的推荐技术只需提供真实的个人信息而无需用户的个人历史信息数据或者他人的评分数据,因此没有个性化推荐的冷启动问题,但是由于非常多的用户顾忌隐私问题以及互联网络上个人信息的安全问题,因此很少有人公开个人信息或提供大量虚假信息,由此导致基于人口统计信息的推荐技术将目标用户不感兴趣的信息推荐给用户,最终造成非常大的偏差,无法适合影音娱乐等个性化推荐要求比较高的领域,因此基于用户统计信息的推荐技术在电子商务实际应用中难度比较大。 2.3.5协同过滤推荐 作为一种集体智慧方法,协同过滤推荐算法的原理通俗易懂,它不用考虑用户或项目本身的属性特征而是充分合理地挖掘用户间、项目间的相似性程度,协同过滤推荐认为具有类似兴趣偏好的用户应该喜欢相似的项目或对相似的项目非常感兴趣,协同过滤推荐算法通过深入分析与目标用户具有相同或类似兴趣偏好的用户数据信息,挖掘出目标用户感兴趣的信息资源,接着将拥有相同偏好的用户聚为一类,同一聚类中的用户具有极高的相似度,然后将与目标用户具有高相关度用户的偏好兴趣推荐给他,协同过滤推荐算法非常适用于非结构化的网络信息,发现用户新的兴趣偏好,无需用户输入其感兴趣的商品信息的关键字而是主动将商品推荐给用户,因此备受电子商务网站个性化推荐系统青睐,并且越来越起到举足轻重的作用,已经得到众多国内外专家学者的广泛关注和研究。xdW知览论文网
假如使用一个m×n的评分矩阵Rm,n=(ru,i)m×n表示评分矩阵中用户以及商品之间的购买关系,并且将第u位用户对于第j件商品的评分用ru,i进行表示,则ru,i既可以是显示评分数值又可以是隐式评分数据值,用户没有评估或浏览过的商品即需要用户预测或计算的商品通常处于结果为0的位置上,协同过滤推荐算法的过程如图2.24所示。xdW知览论文网
xdW知览论文网
图2.24 协同过滤推荐算法的过程图xdW知览论文网
协同过滤推荐算法根据个性化推荐方法所用的不同策略主要被分为基于用户的协同过滤推荐[116,117]和基于项目的协同过滤推荐[118]两种方式。xdW知览论文网
基于用户(或项目)的协同过滤推荐算法并不依靠项目的具体内容信息而主要依靠用户对项目的兴趣偏好值(评价),其核心数据一般被表述为一个由m个用户和n个项目组成的m×n的用户-项目评分矩阵Rm,n=(ru,i)m×n,其中,用户u对项目i的评分使用ru,i进行表述,通常使用5分制进行评分,基于用户-项目评分矩阵的示意图如表2.3所示。xdW知览论文网
表2.3用户-项目评分矩阵 i1 i2 .. ij .. in u1 R1,1 R1,2 .. R1,j .. R1,n u2 .. .. .. .. .. .. .. .. .. .. .. .. .. ui Ri,1 Ri,2 .. Ri,j .. Ri,n .. .. .. .. .. um Rm,1 Rm,2 .. Rm,j .. Rm,nxdW知览论文网
基于用户或项目的协同过滤推荐算法的相似度计算过程的区别在于基于用户的协同过滤推荐算法选择用户-项目评分矩阵中由行构成的向量计算用户之间的相似程度,而基于项目的协同过滤推荐算法则选择由用户-项目评分矩阵中的列所构成向量来计算项目间的相似性。 2.3.6组合推荐技术 因为各种个性化推荐算法都存在自身的优势同时很难避免或消除其存在的缺点与不足,找到一种完美无缺的个性化推荐算法非常困难,所以在电子商务个性化推荐的理论研究和实际应用开发中为了能够为用户提供更高的高推荐效率和更好的推荐结果,通常采用组合推荐(Hybrid Recommendation)算法,根据实际情况从互补性强的多种个性化推荐算法中挑选最佳组合方式,从而使组合后的个性化推荐算法可以取长补短,充分发掘利用各种个性化推荐算法的优势并且避免或削弱各自的不足,最终实现性能更为强大的电子商务个性化推荐系统。xdW知览论文网
通常个性化推荐技术的组合方式主要有以下五种思路: 加权式; 变换式; 混合式; 特征组合式; 瀑布组合式。 2.4本章小结 本章主要探讨了大数据及其相关技术,主要是针对大数据及其相关知识的介绍,以及大数据的体系结构的详细的解释和研究,同时参考各种大数据体系架构,得到了一种大数据较为具有代表性的体系结构,同时对大数据数据中心设计与管理及资源虚拟化技术、海量数据处理平台及其资源管理与调度技术以及大数据服务的质量保证和安全隐私等若干大数据关键技术进行了研究;并对大数据服务的稳定性和可用性进行了探讨。除此之外,本文在上述研究学习的基础上较为深入的研究了大数据的应用与面临的挑战,以及介绍了云计算开发平台Hadoop以及电子商务个性化推荐系统的相关理论,其中包括电子商务概念以及电子商务个性化推荐服务的概念以及目前常用个性化推荐技术。xdW知览论文网
3改进聚类的协同过滤算法 传统的协同过滤推荐算法通常根据最近用户(或项目)邻居的评分来预测目标用户对未评分项目的评分,最后根据预测评分对用户进行推荐,其中,最关键的步骤是计算用户(或项目)间的相似度以查找目标项目的最近邻居,但是电子商务的迅猛发展促使电子商务网站上的用户以及项目数量日益增加,传统协同过滤推荐方法由于在整个用户-项目评分矩阵空间中进行查找所以耗时费力,代价很大,因此可以使用聚类技术对项目进行聚类,将相似度较高的项目聚集到同一组中,将相似度较小的项目聚集到不同组中,缩小相似最近邻居查找空间的维度,从而在一定程度上加快在线计算的速率促使协同过滤推荐算法的实时性和扩展性问题得到极大地改善。 3.1相似度度量方法研究 3.1.1相似度度量方法分析 相似度度量方法在协同过滤推荐算法中既起到寻找用户(或项目)之间的相似程度以便获取用户(或项目)最近邻居集合的作用,又起到预测评分时作为权值获取精确预测评分的作用,因此电子商务个性化推荐系统的推荐质量与用户(或项目)间的相似度精确程度息息相关,相似度度量方法一般有欧式距离,余弦相似度,皮尔逊相关系数等(见第2.5.3节),目前公认且应用最广的相似度度量方法是皮尔逊相关系数,皮尔逊相关系数相比其他度量方法更适合协同过滤推荐算法,因此被广泛应用于协同过滤推荐算法中,然而皮尔逊相关系数也存在一些问题和改进空间,下一节将会提出问题,并对其做出改进。 3.1.2皮尔逊相似度度量方法的改进 基于项目的协同过滤推荐算法通常利用皮尔逊相似度度量方法衡量项目之间的相似度,由于皮尔逊相似度度量方法主要依靠同时对两个项目评过分数的用户数量,因此当用户-项目评分矩阵稠密并且项目之间的共同得分数量非常多时,皮尔逊相似度度量方法具有非常高的可信度,但是若用户-项目评分矩阵非常稀疏时,则会出现对两个项目共同评过分数的用户数量很少同时共同评分很接近,采用余弦相似度、修正的余弦相似度系数等方法所得相似度非常小,通过皮尔逊相关系数度量方法所得的两个项目之间的相似度非常高的情况,这时无论最终的相似度是多少,都无法准确地反应两个项目之间真正的相似程度,所以在挑选具有共同兴趣偏好的数据时一定要慎重考虑共同评过分数的用户数量,假如在所有用户中共同给两个项目评过分数的用户比例非常高,那么很大程度上两个项目间的相似度也非常高,因此文中设计了一种皮尔逊相关系数改进公式,如公式3.1所示:xdW知览论文网
xdW知览论文网
(3.1)xdW知览论文网
式中,用户u对项目i的兴趣偏好值使用ru,i进行表示,用户u对项目j的兴趣偏好值使用ru,j进行表示,对项目i,对项目j,以及同时对项目i与项目j的评过分数的用户集合分别使用Ii,Ij和I进行表示,项目i与项目j的平均评分分别使用与
进行表示。xdW知览论文网
改进皮尔逊相似度衡量方法构成要素包括两部分,前面的部分是对皮尔逊相似度度量方法改进后的系数,后面的部分为皮尔逊相似度度量方法,前面部分的修正系数是对两个项目评过分数的用户集合与同时对两个项目评过分数的用户集合之比,前一部分的修正系数的比例越高说明皮尔逊相似度衡量方法更能准确地表明两个项目间的相似度。 3.2基于Canopy-FCM聚类改进的协同过滤推荐算法 为了改善用户-项目评分矩阵的稀疏性高、实时性和可扩展性差的问题,本文将Canopy-FCM聚类应用到基于项目的协同过滤推荐算法中,使用改进的皮尔逊相关系数法计算项目集合中项目之间的相似度,接着釆用Canopy-FCM聚类对项目进行聚类,首先将项目集合划分为K个簇,接着计算目标项目与各个簇中心的相似度,从而将目标项目划归到与目标项目相似度最高的簇中,然后,在与目标项目相似度最高的簇中计算目标项目与其它项目之间的相似度,将相似度较大的前若干个项目作为目标项目的相似最近邻居,因为它们之间具有相同或类似的兴趣偏好,最后,根据目标用户对这些拥有相同或者类似兴趣偏好的邻居项目的评分来预测目标用户对目标项目的评分,该过程只在项目所在簇中查找目标项目的最近相似邻居而不在整个项目空间进行查找,所以极大地提高了推荐效率,本文设计的基于Canopy-FCM聚类改进的协同过滤推荐算法流程图如图3.1所示,算法过程如下:xdW知览论文网
输入:用户-项目评分矩阵Data,两个距离阈值T1、T2(T1>T2),初始Canopy聚类中心列表C_List并设置为空。xdW知览论文网
输出:聚类结果(U,V)。xdW知览论文网
步骤1:从Data中随机挑选某个数据点x形成构建C_list,并将x从Data中删除;xdW知览论文网
步骤2:使用一个粗糙距离度量Data中剩余数据点到所有Canopy聚类中心点之间的距离,将距离在T1内的数据点划入同一Canopy中,同时删除Data中距离在T2内的数据点;xdW知览论文网
步骤3:返回第二步继续执行,直到数据集Data为空,输出C_List及其大小;xdW知览论文网
步骤4:将步骤3输出Canopy聚类中心列表C_List赋值给FCM簇中心列表V={vi}(i=1,2,…,k),并将C_List的大小为FCM模糊簇个数k赋值,设定模糊参数m(一般为2);xdW知览论文网
步骤5:按隶属度计算公式uij(见公式2.4)得到隶属度矩阵U;xdW知览论文网
步骤6:假如uij大于uwj则将待聚类数据x分配给具有最大隶属度值的第i个簇Fi(i=1,2,…,k),否则将待聚类数据x分配给具有最大隶属度值的第w个簇Fw(w=1,2,…,k);xdW知览论文网
步骤7:根据隶属度函数uij更新k个簇中心vi,并计算相邻两次簇中心vi+1和vi误差值,若
,则算法结束,反之,转到第五步继续执行;xdW知览论文网
步骤8:输出聚类结果(U,V);xdW知览论文网
xdW知览论文网
图3.1基于Canopy聚类改进的FCM算法流程图xdW知览论文网
本文设计的基于Canopy-FCM聚类改进的协同过滤推荐算法的推荐流程图如图3.2所示,算法具体步骤如下:xdW知览论文网
输入:聚类结果(U,V)。xdW知览论文网
输出:目标用户u的Top-N推荐列表。xdW知览论文网
步骤1:根据输入的Canopy-FCM聚类结果(U,V),计算目标项目Ti与FCM各个聚类中心vi(i=1,2,…,k)之间的相似度Sim(Ti, vi);xdW知览论文网
步骤2:假如Sim(Ti, vi)大于等于相似性阈值θ,则将Fi(i=1,2,…,k)中的项目全部加入候选项目集S中,否则将Fi(i=1,2,…,k)中的项目全部舍弃;xdW知览论文网
步骤3:计算候选项目集S中两个项目之间相似度形成相似度矩阵SIM;xdW知览论文网
步骤4:找出目标用户u的已评分项目集,对每一个已评分项目读取SIM得到该项目的K最近邻居集合生成该项目的候选项目集;xdW知览论文网
步骤5:为属于候选项目集的项目选择相似近邻,然后预测用户u对该项目的评分;xdW知览论文网
步骤6:将候选项目集中的项目按预测评分从大到小进行排序,选择前N个项目为用户u产生推荐列表;xdW知览论文网
xdW知览论文网
图3.2基于Canopy-FCM聚类改进的协同过滤推荐算法推荐流程图xdW知览论文网
3.3 本章小结 本章首先介绍了几种经典的相似度计算方法,并着重分析了皮尔逊相关性度量方法,接着针对基于项目的协同过滤推荐算法存在的数据稀疏性高无法得到足够多的最近相似邻居的缺陷,对皮尔逊相关性度量方法进行改进,然后采用Canopy-FCM聚类对基于项目的协同过滤推荐算法予以改进,设计了一种基于Canopy-FCM聚类改进的协同过滤推荐算法,一定程度上改善了协同过滤推荐算法在大数据背景下存在的数据稀疏性、可扩展性与实时性问题。xdW知览论文网