2.26
传统的好友推荐算法通常是基于链接信息(如友谊):没考虑tag
或用户中存在的内容信息(如标签、帖子或个人资料):没考虑很多共同好友情况
非负矩阵分解nonegative matrix factorization:
给定mn阶矩阵X可以分解为X=W H两个矩阵 (m r 和r n),可以通过最小化(非凸函数,只能迭代更新求解)目标函数(目标函数是X=W * H的这个等于号,计算方法是 Frobenius 范数或者Kullback-leibler 离散度)来获得 W 和 H
eg:例如,基于正则化 NMF 的协同过滤方法 RSNMF、基于联合概率矩阵 分解的推荐算法 UPMF、基于受限约束 NMF 的协 同过滤方法 BNMF以及基于结构投影 NMF 的协同 过滤算法 CF-SPNMF
传统方法
基于链接共同好友、基于内容tag、混合方法
基于链接共同好友:用社交网络的拓扑结构去做概率预测
基于内容tag:把一条微博视为一个item,利用协同过滤技术预评分,然后根据其评分高低进行推荐。
混合方法:将结合链接信息和内容信息建立好友推荐
初步baseline
初步可以做混合方法,链接关系做一个矩阵,内容特征做一个矩阵,用NMF分类产生n个主题社区,计算每个社区的成对用户的相似性,以生成候选推荐好友列表,然后合并候选人以获取每个目标用户的 Top-K 好友推荐
对于链接矩阵P,有则为1,无关系为0,为对称矩阵,可以做三分解。对于内容,因为目前数据未知,暂时假定内容包含tag、微博和个人资料,用bow提取特征,矩阵每一项是用户所关联词项的 TF/IDF 值,为矩阵Q。目标函数为r(分解P)+(1-r)(分解Q)+正则化。是约束问题,拉格朗日乘数方法最小化使收敛,也可以引入 Karush-Kuhn-Tucker( KKT) 条件的平滑条件变形,得到局部最优解,就是每个主题社区的成员
再对主题社区做好友推荐,相似度也是由用户内容相似度和链接信息特征相似度组成。用贝叶斯算候选好友和目标用户的后验概率,还是用权重r来控制这两个相似度。也可以算聚类指示矩阵做点积
评价指标
Precision 是用来测量推荐列表中是否都是用户偏好的好友, Recall 是用来表示推荐列表中是否包含了用户偏好的全部好友
结果
横轴top-k(k=0,2,4,6,8,10)或者参数r
纵轴可以做评价指标
问题
如何权衡内容 信息、直接信任关系和间接信任关系这三者在推荐系统中所占的比重?另,转发评论点赞等未考虑?计算用户相似度的改进?
3.6 DUTIR有感
2016级硕士 王安然
四个用户画像相关比赛的代码:https://github.com/liyumeng/SmpCup2016
2016 ccf 国家电网客户画像
2016 ccf“大数据精准营销中搜狗用户画像挖掘”
2016smp weibo
深圳的中国青年人工智能创新创业大赛中以微博用户画像为主体的“思微(SearchWeibo)-微博可视化分析平台”获得三等奖