数极客首页

大嘴巴漫谈数据挖掘:聚类分析后安排,细分群组有特征

大嘴巴漫谈数据挖掘:聚类分析后安排,细分群组有特征

如前所述,用户细分包括前后两部分,即前一部分因子分析完成后,还要对获得的公共因子进行随后的聚类分析

聚类分析按照相似度进行划分类别,相似度一般由数据对象间的距离远近来衡量。基于确定的业务需求和分析目标,可以从用户基本属性、用户使用行为两个方面选择变量,随后便要进一步明确样本数据的形式。

大嘴巴漫谈数据挖掘:聚类分析后安排,细分群组有特征

样本数据中性别、年龄及收入是离散变量,而使用频度和价值贡献是连续变量,通常会选择聚类算法中的两步聚类法,其优势在于能够很好地处理非连续变量。

聚类分析是根据样本记录的相似程度进行划分。在这里,首先将每个样本单独看成一类,形成初始聚类,然后按照距离最短原则,将最近的样本聚为一类,不断调整,直到最后形成一个大类或者满足初始聚类要求。

 

大嘴巴漫谈数据挖掘:聚类分析后安排,细分群组有特征

按照衡量距离的大小,将样本归类到相应群组中。如上所示,经过聚类,将原样本的数据分成了四类,每个类群所占总体比例也都会有所不同。除此之外,还需要观察各个类群的用户在所有变量上的具体表现,即展示群组的用户特征情况,以此发现其中不同类别用户有别于其他群组用户的地方。

 

大嘴巴漫谈数据挖掘:聚类分析后安排,细分群组有特征

基于统计图表,产品经理通过概括总结不同群体之间的特征差异,对于特定群组有了清晰理解以后,便可以进行细分群命名。如上所示,在第一个群组中,首先用户平均年龄适中,其次以男性为主,同时用户比较活跃,价值贡献相对较高,结合这些显性特征,将其命名为“高消费用户群”。

大嘴巴漫谈数据挖掘:聚类分析后安排,细分群组有特征

有了群组特征就能依此展开差异化的业务运营,但之前还需从业务角度评估模型的好坏,也就是要判断各个聚类分组特征是否与实际业务一致。如上所示,针对于群1“高消费用户群”,利用饼图、柱状图等形式展现用户特征,如性别、年龄、收入、使用频度和价值贡献的分布情况,以及获知各个分布区间内的实际用户数量。

 

 

大嘴巴漫谈数据挖掘:聚类分析后安排,细分群组有特征

最后,需要强调的是,对用户细分结果进行迭代维护,主要考虑以下内容:检查现有变量是否可用,是否需要新的变量。检查选择的数据挖掘算法是否适用不断变化的业务需求。同时,把用户细分成多少个类别也是一个值得注意的问题,一般会首先凭借业务经验和产品特性初步判断,然后结合数据分布进行逻辑上的判断,并最终确保业务逻辑上能够解释清楚。

大嘴巴漫谈,有货,有形,有味!

 

发表评论

评论已关闭。

相关文章