数极客首页

大数据更应该强调“人”:in如何利用8000万用户海量行为挖掘数据价值?

你知道“in”吗?in是国内知名的图片设计软件,在 “in” 里用户不仅可以给照片上打上各种标签,如品牌、地点、心情等,还可以给图片加上各种贴纸进行处理!它区别于国外的instagram,定位于“让照片更加有意思”的社交化分享,你可以将打上标签的图片实时与好友分享互动。

短短两年时间,in 依靠在大数据的深耕细作,迅速积累8000W用户!在【友盟+】2016·U-Time 杭州站活动中,我们邀请到 in 大数据中心高级经理羽薇,为我们分享了in从没有数据仓库,到利用大数据的精细化,并应用到8000W用户身上,找到人与人之间的联系!

我是在in成立一个月的时候加入in的,当时连一个数据仓库都还没有建立,而在过去的两年时间里,in到底是如何运用数据来推动业务增长?如何使用用户的推荐,来做用户的精细化运营的?

数据来源于【友盟+】应用统计

我认为主要有以下两方面:

一、发现人早期的时候,in最火的功能是贴纸。很多人下载in是因为看到身边的朋友用in做了萌萌哒很可爱的贴纸,所以下载了in。但我们希望,用户因为贴纸到了in之后,能够很快发现,原来我身边这么多人也在玩,这么多有意思的人也在玩in,而且还在in里沉淀了这么多的生活中的照片,从而产生关注这样的行为。

所以在贴纸一上线的时候,贴纸的使用次数是有限的,用户加了手机认证、上传通讯录可以解锁使用次数的功能。这为我们紧接着的熟人关系模型带来了非常重要的数据基础。当然在一年多以前,需要认证手机才能贴纸解锁的功能就已经下线了。但我们惊喜的发现用户仍然非常乐意在in里通过上传通讯录来找到自己的关系。目前,在in上传通讯录的用户已经达到了将近一半的量。

我们来看一下,这个是 in 的“关系推荐模型”

我们的关系数据来源除了通讯录之外,还有微博和微信的关系数据。并且除了这些可以直接利用的一度关系之外,通过二度的关系运算,我们还能帮助用户找到更多可能认识的人。从我们数据分析的结果来看,当存在4个二度关系的时候,关注的转化已经等同于1个一度关系。

但这个第一个灰度的版本依然受到了很多挑战,最大的挑战就是,用户的反馈,这里是推给了我认识的人,但还是有很多人我不认识。

为什么呢?归结到两个原因:

第一个原因,不同来源的关系数据他们背后的关系模型都是不一样的,不能直接以这种无向边的形式直接定义关系。

第二个原因,二度关系会推出来非常多的长尾结果,对于二度的结果,需要一个优化的排序策略。

01关系的梳理

我们的关系来源于in、通讯录、微博、微信4个渠道,每个渠道对于关系的定义都是不一样的。比如在通讯录里,我的手机号里存了另外一个人的号码,这已经是非常强的社交行为,那就有已经很大概率是我的朋友。但在微博里很多关注都是对明星号或营销号,所以两个用户当在微博互相关注时,我们才会当成一度关系来用。

其次,我们原来的二度关系的计算是没有方向的,在第2个版本也做了调整。当A用户的朋友列表和B用户的朋友列表里存在交集的时候,A和B用户才互为二度关系。

02数据化的运用—多维度的综合运用

当某个用户的一、二度关系全部找到之后,我们会对这些关系再做一次排序计算。除了结合一、二度的关系边数以外,还加上了他们是不是常常出现在一个地方,有没有连过同一个Wi-Fi等因素,来判断这两个人的关系紧密度。

到现在为止,有70%都是来自于这个简单的数据模型,通过实际的场景来达到我们的目的,这就是发现人,让用户快速发现自己认识的人。

二、了解人——用户画像建立in的用户画像,是基于了解人,了解用户的基础上的。不单纯的局限于in。

这部分分为四个要点:

  1. 生命周期

    用户在App内的行为特征是怎样的?喜欢用什么功能?

  2. 时空属性

    地理位置的信息,以及时间属性的信息,如住在哪里?现在是不是在外地?

  3. 社会属性

    用户作为社会群体中的一员所具有的固有的或动态的属性,如性别、年龄、消费水平、社交活跃度等等。

  4. 欲和好

    为什么不说是兴趣,因为兴趣太泛,我们希望能找到用户生活中最关注的那一部分信息。比如我们平台上,大部分都是年轻女生。对于她们来说,生活中最重要的部分莫过于让自己变美、偶像、追星、恋爱、宝宝等等。

所以在建立in的用户画像之前,需要花了很多的时间,去剖析,所以建立下来,in的用户画像这样的。

难点:欲和好。

其中最有挑战也最有意思的是欲和好这部分信息,好在我们有很好的数据基础。在高峰期的时候,每天在in上传的图片数量甚至超过700万,并且我们的图像识别团队能够把这些图片翻译成机器能理解的语言。再加上图片上的文字标签,平台上的话题圈、热门频道、兴趣达人,都为我们获得用户欲和好带来了非常重要的信息。

但是第一个版本的结果出来了以后,结果不容乐观。用户在喜好上非常趋于一致,这现象不正常。比如,几乎所有喜欢明星的人都喜欢鹿晗、TFBOYS,所有浏览发现页的人都呈现美女、美食的偏好。为什么呢?后来分析才发现,是热度的内容影响了画像的计算结果。

所以我们做了两个调整:

  1. 内容惩罚——就是对平台的热门内容做惩罚,进行适当的降权。
  2. 增加数据源——现在增加的是微博的数据源,因为它除了给我们带来了微博的关系之外,用户还会在微博里面找到关系列表,可以知道用户关注和偏好什么信息。

当做了这两个调整,也有信心做校准了。用户画像中就会有一个比较准确的校准。

比如:数据计算出来,这个女性是宠物控,那么我们怎么判断这个计算结果是否准确的呢?

  1. 我们对这计算出来时宠物控的人抽样推送一条宠物的精选内容,观察她们的点击率。
  2. 把这批人的转化率和自己给自己写上“宠物控”这个兴趣标签的人的推送点击率进行比较。

结果得到,给自己打上“宠物控”兴趣标签的人的点击率是随机推送的1.8倍,而用户画像利用用户行为数据计算出来的这批“宠物控”对推送的点击率是随机推送的2.4倍。

在对画像的每个维度都做校准之后,用户画像就可以上线灰度应用了?

接下来in数据大脑会做些什么呢?我们需要一个更系统化的数据大脑。从底层的数据收集、清晰、处理再到上层的应用,包括支持和推进精细化运营、广告定向投放的等业务,真正做到一个系统化的稳健的持续从数据上支持和推进业务的数据大脑,和in一同成长。

来源:友盟数据运营舍

发表评论

评论已关闭。

相关文章