数极客首页

海量数据对比分析,技术面试里的那些门道

海量数据对比剖析,技术面试里的那些门道

编者按:本文来自微信公众号“ InfoQ”(ID:infoqchina),作者: Lerner,译者:Cindy。

众所周知,技术才干

的评价是技术求职者的重要的一项指标。但是,求职者的面试表现到底是怎样
被判定

的呢?怎样的面试分数统计才干
愈加
靠谱地权衡
求职者的真实水平

呢?美国的在线技术面试平台 interviewing.io 经过
剖析

海量数据,给出了自己

的答案。

1 为什么面试数据能中止

对比

剖析

面试官和面试者经过
我们的平台中止

沟通时,他们面对的是一个协作的编码环境,能够

中止

语音、文字聊天,以及经过
白板来直接讨论技术问题。面试官通常来自不同的大公司,比如

Google、Facebook 或 Yelp,还有专注于工程的新兴公司,例如 Asana、Maermark、KeepSafe 等。

每一次面试后,面试官会对面试者中止

全面打分,包括其技术才干

。技术才干

的打分范围是 1~4 分,1 分代表“资质普通
”,而 4 分代表“十分

棒!”。在我们的平台上,通常 3 分及 3 分以上就意味着这个面试者才干

不错,能够

中止

下一轮面谈。

这时分
,你可能会说,这听上去还不错,但也没什么特别的吧?很多公司都将这类数据搜集
在它们的渠道之中。而我们的数据与众不同的是:同一位面试者能够

中止

不同的面试,每次和不同的面试官或者不同的公司中止

面试,这就能够

中止

一定水平

可控的、有趣的对比

剖析

2 为什么你的面试表现动摇
不稳?

我们的数据显现
:同一个人在一次面试中的表现,其数据有相当大的动摇
,这很让人诧异

。请先来看一个图直观感受一下。在下图中,每个 ICON 代表一个参与
了 2 次及 2 次以上面试的面试者的平均

技术分数。Y 轴表示其表现的规范

差,数值越大,代表这个面试者的表现越不稳定。鼠标悬停在图中每个 ICON,你能够

深度研讨
面试者的每次表现。(数据来自 2016 年 1 月的 299 份面试,去掉了分数小于 2 的面试记载
。)

海量数据对比剖析,技术面试里的那些门道

面试表现的规范

差和平均

正如你所看到的,大约 25% 面试者的表现十分

稳定,其他
的却布满了整个图
(即十分

不稳定)。我们十分

猎奇
,动摇
性能否
随人的平均

分数而变化。换句话说,是实力较弱的参与者比实力更强的动摇
更为猛烈
吗?答案是招认

的——当运转
规范

差与平均

值回归,我们想不出任何有意义的关系(R2~ = 0.03),这意味着人们布满整张图(即十分

不稳定),不论

他们有多强的实力。

  • 许多人 至少得到一次 4 分也至少得到一次 2 分
  • 看一看 较高分区域范围(3.3 分或者更高),变化是在合理范围内的。
  • 看一看 “平均

    ”表现者(2.6~3.3 分),数据看上去就很紊乱
    不定。

假定

是我,需求
依据

这些数据作出一个决议
,聘用哪一位面试者,就是管中窥豹了。那就似乎

是,观赏

墙上的油画,或者选择
酒窖里的好酒,致使

可能只是看到沙发的背面

而已,太客观
随意了。

正因如此,你可能会说,无论什么缘由
,这样来比较

技术分数都是错误且幼稚的,至少有种状况

,对同一个面试者,一个面试官可能打 4 分而另外一个面试官可能打 2 分。我们在本文的附录中讨论
了这个问题。这个问题的确

需求
讨论。但是
我们大多数面试官都来自十分

有实力的工程品牌公司,为了确保品牌实力,他们不会改动
面试者面试表现的不稳定性,也不会修正
面试官的打分。

那么,真实生活中,你要作出决议
能否
要招聘某个人时,你可能需求
尽最大努力避免

两件事——错误肯定(错误地引进低层次的人)和错误招认

(拒绝

了你本应该招聘的人才)。大多数顶尖公司的面试范例指出,错误肯定比错误招认

还要恶劣。这有道理吗?由于
有足够多的渠道和人才资源,即便

有很高的错误招认

率,你还是会得到你想要的人才。

但是,假定

错误肯定率很高,你招聘了更低层次的人才,潜在地,在某种水平

上,你也给你的产品、文化以及未来

招聘规范

带来了不可逆的损伤
。当然,公司为整个产业设置的招聘规范

和方式,看上去是有很多的渠道且源源不时
的人才资源。

但是
,优化高错误招认

率的弊端,会给现有的工程招聘规范

带来危机。目前典型的招聘案例能否
给出了足够的信息?或者说,基于对人才如此大的需求,能否
错过了有资质的人才,仅仅由于
我们管中窥豹?

那么,抛开惨白
夸大

的说教,思索
到面试者表现的不稳定性,一位优秀的面试者在一次面试中可能失败的缘由
是什么呢?

3 面试失败的缘由
,源于你的表现

接下来,你能够

看到整体接受

面试人群的平均

表现的散布

图:

海量数据对比剖析,技术面试里的那些门道

面试者平均

技术表现散布

要计算出一位给定平均

分数的面试者面试可能失败的几率,我们必需
做一些统计工作。第一
,基于面试者的平均

分数(近似 0.25),我们把面试者分红
几组。然后,对每一组,我们计算出他们失败的可能性,即得到 2 分或者更少的分数。

最终
,为了让盘绕
着起始数据集的工作量不那么大,我们重新采样了数据。在重新采样的过程中,我们把一个面试结果当作一个多项散布

,或者换言之,假定
每个面试者都是一个加权的 4 面骰子,与所在的组群相对应。然后,我们再扔几次骰子,给每一组创建

一个新的“模仿

”的数据集,然后用这些数据集计算出新的失败概率。下面,你会看到 10000 次重复

这个过程的结果。

海量数据对比剖析,技术面试里的那些门道

用平均

分数模仿

的面试结果

如图所示,上面的散布

彼此堆叠
。这很重要,由于
这些堆叠
通知
我们,这些散布

组可能没有显著差别

(例如 2.75 和 3 之间)。当然,随着更多海量的数据,每组之间的轮廓可能愈加
明朗。另一方面,假定

需求
大量的数据来检测失败率的差别

,这可能标明
,人的行为在实质

上是高度可变的。在完成这些之后,我们能够

十分

肯定地说,低端光谱(2.25)和高端光谱(3.75)之间有显著差别

,但居于中间的人的状态,还是紊乱
不定。

但是
,运用
这些散布

图,只能计算出得到某个平均

分数的面试者会失败的概率(参见下面阴影区域 95% 置信区间)。而整体素质很强的人(例如平均

值~ = 3),可能会搞砸技术面试,高达 22%。这一事实,标明
了面试过程肯定还有改进

的余地,同时也使频谱中间含糊

区域更大(即看不分明

状态的人会更多)。

海量数据对比剖析,技术面试里的那些门道

平均

分数对应的面试失败概率

4 面试结果,真的是一锤定音?

通常,一想到面试,就会想到那些可重复

的结果,能够

得到关于面试者足够多的资历信息。但是
,我们搜集
到的数据,固然
它可能很单薄

,却给出了一个截然不同的结果。而且,这个结果与我以往作为一名招聘人员的阅历

相分歧
,并且这些见地
在技术社区中也是存在的。

Zach Holman 的 Startup Interviewing is Fucked(译注:《创业公司不真实

际的面试工程师的办法

》一文)以为
面试过程与亟需人才的工作是脱节的。TripleByte(译注:也是美国的一个技术招聘平台)经过
察看

自家的数据,也得出了相似

的结论。最近,rejected.us(译注:一个分享用户面试失败阅历
的平台)也得出关于面试结果不稳定的更深化

的表述。

我绝对置信
,许多曾经被 A 公司拒绝

的人,会在另一次面试中表现得更好,最终以人格魅力终了

面试,6 个月后被招入 A 公司。固然

每个人都付出最大努力,但是招聘流程堕入
了一个怪圈,紊乱
不定、随机且糟糕。

是的,技术面试自身

就是失败的,它没有为面试案例提供牢靠

的确

定性信息,这当然有可能。算法面试是一个热议的话题,我们很感兴味
。特别让我们兴奋的一件事是,跟踪面试表现作为面试的函数类型,我们得到平台上越来越多不同的面试类型 / 办法

。的确

,我们的长期目的
之一是,真正挖掘

数据,看看不同的面试作风
,以及写出重要的数据驱动语句,哪一种技术面试会给出最有力的信息。

但是
,与此同时,相比这样一个重要的决议
仅仅基于一次恣意
的面试,我会以为
应用
整体表现更有意义。整体表现,一方面能够

辅佐

纠正异常不佳的表现,一方面也可能不留意

淘汰那些最终在面试中表现很好的人,或随着时间的推移,淘汰那些仅仅记住 Cracking the Coding Interview(中文版:《程序员面试金典》)的人。

我知道

,像这样不严谨地搜集
整体表现数据,整体表现并不总是有效的。但至少,在这种状况

下,只需
面试者的表现勉强合格,或他们的表现与你所希冀
的大相径庭,那么就再做一次面试,或许能发现些许不同的特质,然后再作出最终
的决议

5 为什么面试的原始分数有压服
力?

你们会充溢
疑问,运用
原始分数来评价
面试者,这肯定会有一些很显然
的问题。我们往常

来讨论一下。问题是,即便

面试官可能是高级工程师级别,阅历

很丰厚
,原始分数仍只是由反响

组成,他们不会修正面试官的严厉
规范

(例如,一个面试官给 4 分,而另一个面试官给 2 分),也不会顺应
面试技艺
的变化。在内部,运用
一个更复杂的和全面的评级系统来肯定
面试技艺
,假定

能够

标明
,原始分数与计算出来的评级紧密

关联,那么,相对地运用
原始分数,我们不会觉得不好。

我们的评级系统的工作原理是这样的:

  • 基于每个反响

    项的加权平均

    ,为每次面试创建

    一个分数。

  • 针对每位面试官,我们运用
    这个分数,对他们面试的每位面试者中止

    相互

    比较

  • 基于比较

    结果,运用
    贝叶斯排名系统(Glicko-2 修正
    版本),为每位面试者评级。

因而

,每个人只能与同一位面试官面试的其他人

比较

,仅仅基于分数而排名。这意味着,一位面试官的分数历来
没有与另一位面试官的分数直接中止

比较

,所以我们就避免

了面试官严厉
规范

的不分歧
问题了。

话又说回来,为什么我要提起这个?你们都是聪明人,你能够

分辨,哪些人曾经
完成了面试题,哪些人还在伪装

做数学题。在做一切
这些剖析

之前,我们想确保我们置信
自己

的数据。我们曾经
做了很多工作来构建一个可信的评级系统,与原始编码分数关联起来,来看看它们在决议
理论

技艺
上是怎样
强大。

海量数据对比剖析,技术面试里的那些门道

原始技术分数的牢靠

这些结果十分

有压服
力。固然
,还谈不上能够

完好

依托
原始分数,但足以置信
原始分数是有用的,能够

近似肯定
面试者的才干

本文翻译已获受权

,原文链接:http://blog.interviewing.io/technical-interview-performance-is-kind-of-arBItrary-heres-the-data

发表评论

评论已关闭。

相关文章