数极客首页

大数据能拯救你的爱情生活吗?

美国最浪漫的城市是哪一个?人们在情人节最喜欢买哪一种礼物?在给出在线约会产业的规模后,你就会对利用大数据创建更好的匹配系统感到不足为奇了。真正价值百万美元的问题是:你能够利用所有这些数字和数据点帮助你自己吗?如果你是单身,可能你已经考虑过在线约会。美国近11%的成年人已经尝试过这种方式,你可能会在Match,OKCupid(美国在线约会社交网)或者任何一个约会网站上结束单身。一些约会网站试图从一开始就操纵约会游戏。他们会考虑哪个城市有最匹配的人,或者哪种工作将获得最多注意力。Plenty of Fish(美国一个婚介交友网站)进行数据研究发现波特兰是“美国最浪漫的城市”。同时,密歇根拥有最浪漫的单身汉,路易斯安那排名最后。他们通过500万名单身汉的数据得到这些结论。最浪漫的地方由该区域单身汉在Plenty of Fish网站个人资料上列出的像“浪漫”,“在沙滩上散步”,“在篝火边拥抱”等等(还有其他成千上万的浪漫的短语)的百分比来决定的。

大数据能拯救你的爱情生活吗?

现在,网恋的数据呈现出了一些问题。因为用数据来定义“浪漫”(甚至是“爱”)这些抽象的概念是不容易的。网站资料列出的一些其他的浪漫事件包括:

牵手

泡泡浴

浪漫按摩

事实上,我们中许多人绝不会在资料中列出这些事件,来解决Plenty Of Fish是否发现最浪漫的州这样的问题。很多人怀疑约会数据,并强调数据质量是最重要的。Christian Rudder,OKCupid的创始人之一,解释道,数据行业面临最严峻的问题不是发现算法,而是发现正确的数据。

“我的直觉是,大部分用户的输入是真实的,但是人们误解了自己。” 他说。即使一对夫妇在数学上看起来很匹配,但是在表面和不那么完美的信息之间有一个水准,公司需要挖掘背后的信息,以获得更真实的匹配。加州伯克利分校的一个研究发现,“81%的在线约会者不会给出体重、身高或者年龄相关的真实信息。”而且这很可能不是偶然! 例如,一些人喜欢把“古典音乐”作为兴趣,但这仅仅意味着他们喜欢这种模糊的、理论性的方式。分析他们的个人播放列表,可以证明他们事实上只是关注这种流派。这为在线约会交友提供了两点重要规则:

  • 1、真实的填写调查问卷。这可能是令人沮丧的。你可能想要听一些更有趣的。你也许会想,“快给我看匹配结果!”然而,这些算法只能处理已给他们的数据。提供缺陷的信息将意味着更多的有缺陷的约会。
  • 2、可能的话,连接到其他网站。如果用户愿意给予公司扫描他们的Spotify, Netflix, Facebook或者搜索记录许可,大量更可靠的数据就可以被使用。好的算法不会仅仅根据共同的好友或者你们是否都喜欢唐顿修道院来匹配。他们能创建一些新的模型寻找匹配。

一个出人意料的方法是比较用户的竞争对手。如果两个用户有类似的音乐品味并且和相似的人聊天,那么来自其中一个人的数据可以帮助另一个人匹配。这也可以帮助搜索引擎确定自己的个人资料对其他用户有多大用处。算法也能通过比较相似的用户和他们的受欢迎程度来决定你的资料是否有吸引力—这听起来有些吓人。

约会数据必须被更多的创造性的使用OKCupid的负责人透露,数据分析得出了一些令人惊讶的结果。通过比较OKCupid用户在网站平台上结束关系的数据,他们发现了首次约会的人都会提出以下3个问题:

1、“你喜欢恐怖片吗?”

2、“你曾经独自一个人到另一个国家旅游吗?”

3、 “辞职不干了而去船上生活岂不是很有趣?”

看似无关紧要的问题比许多无用的数据揭示了更多关于个性和生活轨迹的行为。艾米·韦伯的ted演讲,题为“我是如何入侵在线约会”,已经有450万忍观看。这不仅是因为人们找到了有趣的话题,他们可能有相似,或是相反的网上交友的经历。用户被问到的问题,虽然有用,但不能完整的描述一个人。她的所作所为是逆向工程系统,并创建自己的数据点找到如意郎君。她用72个数据点找到匹配,并且它成功了!她已经成功找到大量的样本。但不幸的是,他们不喜欢她,因为她所填写的个人资料和兴趣。这导致她去研究是什么让其他用户更受人喜欢和欢迎。得出的结果范围是平均每条消息单词统计(97),平均通话时间(23小时)。当然,还有些照片。问题不是缺乏数据,而是错误的数据。

数据白痴应该如何向情人展示自己的兴趣?通过利用数据。国家零售基金会很乐意分析消费者在情人节花的钱。在过去,他们发现折扣店和百货商店是主要消费的地方。他们甚至准确的得出2015年庆祝情人节的平均支出是87.94美元。他们知道45岁到54岁的人是最大的消费人群,这些人创造更多的音乐播放列表。这是通用类型数据,但并不一定告诉恋人该做什么。

就像密歇根不应该因为看似“浪漫”的语句就被认为是最浪漫的州,数据可以帮助情侣如何变得更有创意。StatisticBrain统计显示情人节有198000000束玫瑰被购买。最多的礼物是卡片,紧随其后的是糖果、晚餐、鲜花和珠宝,礼品卡甚至榜上有名。在去年2月13日1800Proflowers.com和flowers.com的鲜花购买数量达到峰值。同样的情况发生在123greetings.com(一个电子贺卡网站)。对全世界的恋人来说,可以利用数据找到爱和维持爱情。关键是要创造性地、正确地使用它。

数据分析网翻译小组翻译,翻译成员——Blanche,具有数学与统计背景,硕士毕业在一家通信运营商做数据分析与建模,爱运动爱音乐,关心大数据,立志做好一名数据挖掘攻城师。

本文由数据分析网 - 翻译小组 编译发布,转载或内容合作请联系我们授权,未经允许谢绝转载,本文链接:https://www.afenxi.com/23979.html

发表评论

评论已关闭。

相关文章