数极客首页

这个技术宅用大数据找对象,现在婚都结了

这个技术宅用大数据找对象,往常婚都结了

  • 谋划

    编辑 | Natalie

  • 作者 | Kevin Poulsen
  • 译者 | 核子可乐
  • 编辑 | Natalie
  • 微信公众号“AI 前线”(ID:ai-front)

Chris McKinlay 窝在加州大学洛杉矶分校数学系楼上的小隔间里,头顶的灯泡和显现
器照亮了他年轻的脸庞。清晨
三点,这是他运用
校内超级计算机的最佳时间。趁教员

同窗
们曾经
沉沉睡去,他得尽快赶完自己

的博士论文(内容为大范围
数据处置
与并行数值办法

)。在计算机全速运转的同时,他翻开
了另一个窗口,打算看看自己

的 OkCupid 收件箱。这个技术宅用大数据找对象,往常婚都结了

McKinlay 身体
瘦削、高高的个子,头发总是紊乱

不堪。与 4 千万美国用户一样,他也在经过
Match.com、J-Date 以及 e-Harmony 等网站寻觅
自己

的爱人。自九个月前与女朋友分手之后,他不时

在寻觅新的人生伴侣,他向 OkCupid 算法提供的所谓潜在匹配女性用户发出了数十条心爱
的引见
信息,不过大多被对方直接忽视

。当然,他的努力也并非一无所获——他总共中止

了六次约会。

2012 年 6 月的这个清晨,他正在编译器窗口中处置
着机器码。但在无意中瞥向闲置在另一个窗口中的约会资料

时,他忽然

认识
到自己

理论

上犯了个大错误。他不时

想像其他普通用户一样采取常规的匹配方式 ; 但答案正相反,他应该像个数学家一样来场“真正”的约会。

为什么不经过
大数据寻觅
约会对象?

OkCupid 是由哈佛大学数学系于 2004 年树立
的,其出色的匹配计算办法

惹起
了约会平台的关注。会员们需求
在这里回答

大量关于政治、宗教、家庭、爱情、两性乃至智能手机偏好等的多选调查询
题。

平均

而言,受访者们会从庞大的题库当中抽到 350 个问题,例如“您最想和以下哪一位共同去看场电影?”或者“在您的生活中,宗教 / 上帝到底有多重要?”关于
每位用户,系统都会记载
下其答案,并用以判别
哪些配对方适合

其偏好。关于
每个问题,系统会从“无关”到“必需
”划分出五个等级以评价
问题的重要水平

。OkCupid 的匹配引擎会应用
该数据计算出一对男女的兼容性水平

。这一水平

越接近百分之百,则证明双方越能够

彼此契合。

不过从数学角度来看,McKinlay 与洛杉矶女性们的兼容性十分

糟糕。OkCupid 的算法仅运用
两种潜在匹配结果判别
问题结果,而 McKinlay 在这些随机问题中给出的答案被系统判定

为“此人不受欢送

。”在阅读
自己

的匹配结果时,只需

不到 100 名女性与其具有
90% 以上的兼容性。要知道

,洛杉矶市寓居
有 200 万女性(OkCupid 中包含约 8 万名女性用户的信息)。在这个兼容性等于知名度的网站上,McKinlay 理论

上毫无存在感。

他认识
到自己

必需
想办法

进步
这个数字。经过
统计抽样,McKinlay 将能够

肯定
哪些问题决议
着他能否找到自己

喜欢

的女性。以此为基础

,他将能够

整理出一份新的个人资料

,诚实

地回答

这些中心
问题并疏忽

其他
问题。这样,他将保证自己

匹配到洛杉矶区域内每一位可能适合

他的女性,同时扫除
掉其他不合适

的对象。这个技术宅用大数据找对象,往常婚都结了

Chris McKinlay 应用
Python 脚本阅读
了数百个 OkCupid 调查询
题。在此之后,他将女性约会者划分为七个群组,例如“多样”与“专注
”,每个群体都具有
一系列不同特征。

即便

在数学家群体当中,McKinlay 也绝对称得上一个异类。他出生于波士顿郊区,2001 年毕业于米德尔伯里学院并取得

中文学位。同年 8 月,他在纽约找到一份兼职工作,担任
在世贸中心北栋 91 楼的办公室里处置
汉译英任务。贸易中心在五周后因飞机撞击而坍塌。(McKinlay 当天在办公室待到清晨
2 点,而上午 8:46 飞机袭来时,他正在住处休息。)阅历
了这场生死剧变,“我开端
问自己

,我到底想做些什么。”这时,哥伦比亚大学的一位朋友将他引见
到了麻省理工学院著名的二十一点扑克算法团队当中。接下来的几年中,他奔走

于纽约与拉斯维加斯之间,仰仗

着计算扑克牌面的呈现
几率赚取到高达 6 万美圆
的年收入。

这段阅历
激起了他对应用数学的浓厚

兴味
,并最终促使他拿下了硕士学位以及博士学位。他回想
道,“他们能够

在多种不同的应用场景下运用
数学学问
。他们发现了很多能够

用数学办法

处置

的游戏,例如扑克牌九。他们会写下代码,并提出赢面最大的游戏战略
。”

往常

,他打算在跟随

爱情方面采取同样的思绪
。当然,要迈出第一步,他第一
得搜集
数据。固然
博士论文仍在中止

,但他还是抽出时间注册了九个 OkCupid 帐户,并编写一套 Python 脚本用于管理这些帐户。这套脚本会搜索他的目的
人群(年龄在 25 岁至 45 岁之间的异性恋与双性恋女性),访问她们的页面,并抓取其个人资料

以获取每一条可用信息,包括种族、身高、能否
吸烟、能否
置信
占卜等等。

为了找到调查答案,他还得做点额外的探求

。OkCupid 允许用户查看其他人

的回复,但前提是用户自身

必需
也参与问题的回答

。McKinlay 设置脚本以随机回答

各个问题——由于他并没有填写任何个人资料

,因而

细致

答案的选择并不重要——进而将女性们的答案添加到数据库当中。

McKinlay 称心

地看着自己

的这套脚本全速运转。然后
,在搜集
到约 1000 份资料

后,他遇到了第一个难题。OkCupid 当中包含一套系统用以避免

这种数据搜集
行为:它能够

轻松发现速渡过
快的用户操作状况

。在此之后,他的脚本机器人被一个接一个封禁了。

他必需
把脚本锻炼
得更像人类

他转而求助自己

的好朋友 Sam Torrisi,他是一位神经科学家,最近正在教授 McKinlay 音乐理论。作为报答
,McKinlay 则教他高数课程。Torrisi 也在运用
OkCupid,他同意在自己

的计算机上装置

特务

软件以监控他对该网站的运用
办法

。随着数据的快速积聚
,McKinlay 经过
编程让自己

的机器人模仿

Torrisi 的点击与打字速度。他从家里又带来一台电脑,并将其接入数学系的宽带线路,从而保证这台设备能够

24 小时全天运转

三周之后,他搜集
到全国 2 万名女性用户关于 600 万个问题的答案。但 McKinlay 的论文也因而

遭到
了影响,迟缓

的进度招致
其被降级为编外项目。往常
,他基本

睡在自己

的小隔间里。在这座昏暗的米色小“牢房”里,他躺在一张薄薄的暂时
床垫上渡过
了一个又一个夜晚。

McKinlay 的工作计划

十分

明白
,他需求
经过
数据调查发现一种方式

,即依据

相似

性对女性用户中止

粗略分组。在他编写出一种名为 K-Modes 的改进

性贝尔实验室算法之后,这项工作取得

了突破

性停顿
。这种算法初次
应用于 1998 年,担任
对患病的大豆作物中止

剖析

。其应用
分类数据依据

作物颜色判别
其能否
遭到
感染。经过
微调,他得以调整剖析

结果的稠度,能够

将结果稀释成润滑

的色块或者进一步凝结成单一颗粒。

经过对数据的重复

剖析

,他最终取得

了理想的成果——依据

问题与答案,他将 2 万名女性总结成七个统计层面的星团状汇合

体。

“我真的欣喜若狂,六个月以来的努力终于有了报答
。”

他又重新调整了机器人以搜集
另一份样本:洛杉矶与旧金山区域内曾在过去一个月内登录过 OkCupid 的 5000 名女性用户。经过
K-Modes 的第三
发力,他第三
得出一份汇集

结果。经过
抽样考证
,他第三
证明自己

的统计结论精确

无误。

往常

,他只需求
判别
哪个集群最适合

自己

即可。他查看了很多用户的个人资料

,其中一个群体平均

年龄太小、另外两个群体平均

年龄太大,另有一个群体宗教倾向太严重。最终,他选定了一个由 25 岁左右女性占主体的集群。她们看起来比较

像是自由

职业者、音乐家与艺术家。这就是 McKinlay 的黄金群体,他置信
自己

的真爱就躲藏
在其中。

理论

上,另一个与之相近的群体看起来也很酷,其中的女性年龄稍大,且从事专业的发明

性工作——例如编辑与设计师。他决议
把两个集群都定为目的
。为此,他整理出两份个人资料

,分别针对 A 组与 B 组中止

了内容优化。

他用文本挖掘

了这两个“星团”,以了解

她们最感兴味
的内容 ; 教学成为其中的一项热点,因而

他撰写了一篇简介文章,强调自己

曾从事数学学问
的教学工作。除此之外,他还选择
出两个集群当中最受欢送

的 500 个问题,并诚实

地填写自己

的答案——他不希望以谎言

为基础

博取女性喜欢

,这会危及双方的后续关系。但必需
强调的是,他打算应用
计算机弄分明

每个问题的重要水平

,并应用
自顺应
增强

机器学习算法提供最佳权重结论。

这个技术宅用大数据找对象,往常婚都结了

以此为基础

,他具有
了两份个人资料

; 其中一份配有他攀岩时的照片,另一份则配有他在演出中弹奏吉他的照片。OkCupid 中的一个问题提到,“无论未来

的规划怎样
,您往常

对什么更感兴味
?性还是爱情?”答案很显然
,当然是爱情更重要。但关于
平均

年龄较小的 A 组,他依照

计算机的指导,将问题重要度评为“十分

重要”; 但对 B 组,则将重要度评为“必需
”。

在回答

了一切
问题并对其中止

重要度排列之后,他开端
依照

匹配百分比分数在 OkCupid 中对洛杉矶的女性中止

搜索。第一页的女性具有
高达 99% 的匹配率。向下滚动……继续滚动……再来,他最终看到洛杉矶区域内即有 1 万名女性与他具有
超越
90% 的兼容水平

当然,他还需求
更进一步才干
真正惹起
留意
。OkCupid 会员在他人

查看自己

页面时会收到通知,因而

他编写了一个新程序以访问那些匹配度最高的页面。周一,访问 1000 位 41 岁女性 ; 周二,访问 1000 位 40 岁女性 ; 两周之后,当访问对象年龄抵达
27 岁时,重新返回 41 岁并继续重复

一位女性在页面中写道,“直到往常

,我还没有遇到过契合
自己

心意的对象。但我发现你的个人资料

很有趣。看起来,你是个知晓

数字且性情粗暴
的男性……我想我应该跟你打个招呼。”

另一位女性写道,“你好——你的个人资料

真的让我十分

吃惊,我想来打个招呼。我以为
我们有很多共同点,固然
我不懂数学,但肯定也能聊得很开心。”

另一位女性用户问道,“你真的能翻译中文吗?我也上过一堂课,但觉得
学不明白。”

McKinlay 的数学搜索工作曾经
完成,接下来要做的,就是走出小隔间真正试试自己

的研讨
成果。

搜索工作完成,得开端
真正的约会了

6 月 30 日,McKinlay 在加州大学洛杉矶分校的健身房里洗了个澡,然后开车穿过市区。他的约会对象是 Sheila,一位充溢
年轻艺术家气质的网页设计师。他们在 Echo Park 的一家咖啡厅吃过了午饭。McKinlay 回想
道,“这真是太吓人了。整个过程更像是一次学术交流活动。”

约会终了

时,两个人都发现自己

对对方并没什么觉得
。第二天,他又参与
了另一场约会——对方是一位来自 B 组的博客编辑。他打算在 Echo Park 的湖边散步

,却发现这里被封起来中止

湖水疏浚
。对方埋怨

称自己

不时

在读 Proust 的著作,并对自己

的生活感到懊丧
。McKinlay 最终
得出结论,“我对这次约会同样感到懊丧
。”

第三次约会的对象同样来自 B 组。他在韩国城的一家酒吧里遇到了 Alison。她是一位编剧系学生,肩上纹有一个斐波那契螺旋。McKinlay 喝了点韩国啤酒,第二天带着宿醉从自己

的小隔间里醒来。他在 OkCupid 上向 Alison 发送了后续音讯

,但她没有回复。

固然
一再遭受拒绝

,但他每天仍能收到大约 20 条音讯

。但是
极具吸收
力的个人资料

依然

无法挽救失败的真实约会。他开端
疏忽

那些平淡无奇的音讯

,而只回复比较

诙谐
或者在个人资料

中展示

有趣内容的对象。普通
来说,只需求
三到五条信息,他就能敲定一场约会。但往常

,他变得更为消极——只是简单回复“你看起来很酷,要见个面吗?”

到第 20 次约会时,他留意
到了一些潜在的变数。在较为年轻的群体当中,女性常常
具有
两个或者更多纹身,且普通
住在洛杉矶东区。而在较为年长的群体当中,女性们常常
对中型犬表现出猛烈

的喜欢

在早期约会当中,他会努力对过程中止

精心谋划

。但是
,随着项目强度的增加,他只能在午餐或喝咖啡时随意布置
约会,有时分
致使

会一天赶赴两场约会。他制定了一套个人规则来完成这场马拉松式的爱情搜索。第一,他决议
不再喝酒。此外,约会终了

之后不再纠缠,也不布置
音乐会或者电影。他表示,“那样会分散留意
力,使两个人的肉体

无法集中在彼此身上。这样十分

没有效率。”

爱情中的数据奇妙

McKinlay. 的代码发现,女性群体理论

上构成了具有统计学意义的整体。她们倾向于以相似

的方式回答

OkCupid 上的调查询
题。其中的“青涩”帮喜欢在网上约会新手,而“嫩草”帮的平均

年龄更大也更乐于冒险。以下是各个群体针对四个最受欢送

的问题作出的回答

这个技术宅用大数据找对象,往常婚都结了

在经过一个月的约会之后,他认识
到自己

在有纹身且寓居
在东区的女性身上糜费
了太多肉体

。他删除了自己

的 A 组信息,进步
了效率,但结果却依然

一样。随着夏天的终了

,他曾经
中止

了超越
55 次约会,而且对每次约会都中止

了认真记载
。但是
遗憾的是,只需

三位女性愿意与他中止

第二次约会,只需

一位愿意中止

第三次约会。

大多数约会失败的用户都会感到自尊心遭到
伤害,而 McKinlay 的问题更糟糕——他致使

狐疑

自己

的计算结果出了问题。

这时,他收到了来自 28 岁艺术家兼监狱废弃
活动者 Christine Tien Wang 的音讯

。McKinlay 在加州大学洛杉矶分校左近
搜索身高 6 英尺的蓝眼睛女孩,而她正在这里攻读美术硕士学位。他们的兼容度为 91%。

他在学校的雕塑园区内和她碰面,并在寿司店一同
用餐。他立刻

有了觉得
,他们开端
谈论

书籍、艺术与音乐。她招认

自己

在发音讯

之前曾对自己

的个人资料

中止

了调整,而他则将整个黑客故事一览无余

她的反响
是,“哈哈,真有阴谋论和愤世嫉俗的觉得
。我喜欢这个主见

。”

双方的第一次约会曾经
是 McKinlay 的第 88 次约会,但他们停顿
得很顺利,接下来的约会陆续敲定。两周之后,两个人暂停了自己

的 OkCupid 帐户。

McKinlay 表示,“我以为
我所做的跟每一位用户并无不同,只不过引入了算法、范围
化以及基于机器学习的细致

方式。”每个人都希望自己

的个人资料

亮鲜亮丽,他只是应用
数据资源完成
了这个目的

在双方约会的一年之后,McKinlay 与 Tien Wang 在卖点斯特伍德寿司吧与我见面——这里也是他们第一次用餐的中央
。McKinlay 往常
曾经
拿下了博士学位,在教授数学的同时攻读音乐研讨
生学位。Tien Wang 则拿到了艺术奖学金,远赴卡塔尔留学。他们不时

在 Skype 上坚持
联络
,而她曾经
多次

来探望

McKinlay。

在我的央求

之下,McKinlay 带来了他的实验笔记本。Tien Wang 也看过这份笔记。McKinlay 在其中写下了各种公式与方程式,结尾则是排列划一
的女性与日期清单,外加简约
的注释。Tien Wang 瞥了一眼,并笑称这本笔记真的很蠢。她还留意
到,8 月 24 日,McKinlay 曾经在一天之内带着两位女性前往同一处海滩。“这真是太可怕了。”

关于
Tien Wang 而言,McKinlay 的 OkCupid 破解之旅只是个有趣的故事。但一切
的数学公式和代码只是他们故事的序幕而已。事实上,在开端
约会之后,真正的技术性工作才刚刚开端
。她表示,“人们要比自己

的个人资料

复杂得多。所以,我们相遇的方式有点肤浅

,但发作
的一切却并不肤浅

。这是由大量准备工作所促成的美好

结果。”

McKinlay 对此表示同意:“这绝不像「我们匹配度高,所以我们很合适

」那么简单。OkCupid 只是一种搭建对象的机制,接下来我们还是得靠自己

。”

她对此表示不满:“不是你找到我,是我找到了你。”她边说边抚摸他的手肘,而 McKinlay 思索了一阵,表示她说得没错。

一周之后,Tien Wang 返回了卡塔尔。在一次日常 Skype 通话当中,McKinlay 拿出一枚钻戒摆在摄像头前向她未婚——她开心肠
同意了。

但他们还没有定下最终婚期——毕竟选择婚礼日,也是需求
中止

一点科学研讨
的。

One More Thing…

你以为故事到这里就戛但是
止了吗?你是不是开端
狐疑

这基本

就是作者编出来逗你玩的?

图样图森破!小编赶紧揣好了兜里的狗粮。

这篇文章最早发布到往常

曾经
过去了几个年头,小编将文章挖出来并吃了一嘴狗粮之后,难免
开端
猎奇
后来的剧情展开

,求婚胜利

之后呢?猎奇
心害死独身

汪,小编开端
在搜索引擎上搜索 Chris McKinlay,并找到了这位前光棍极客的推特,经过一番翻阅和搜索,看到了以下对话:这个技术宅用大数据找对象,往常婚都结了

下面是男主角回答

网友的提问

:去年秋天结婚了,目前觉得
相当好。

……

是不是被秀了一脸?这个技术宅用大数据找对象,往常婚都结了

好了,屠狗节加量不加价狗粮到此为止。

最终
祝各位早日经过
大数据找到属于你的真命天女 / 真命天子,一定要 Happy Ending 哟~

原文链接:

https://www.wired.com/2014/01/how-to-hack-okcupid/

发表评论

评论已关闭。

相关文章