数极客首页

最强指南:处理35种不良数据的正确方式

最强指南:处置35种不良数据的正确方式

作者 | Christopher Groskopf

译者 | 无明

编辑 | Vincent、Debra

微信公众号“AI 前线”,(ID:ai-front)

应该从数据来源处置

的问题

 值缺失

留意
数据集中的空值或“null”,除非你知道

它们的确

切含义。假定

数据是年度数据,那么有没有哪年的数据没有被搜集
到?假定

是一项问卷调查,有没有受访者拒绝

回答

问题?当你在处置
缺失数据时,应该问自己

:“我知道

这个值的缺失是什么意义
吗?”假定

答案是招认

的,你应该检查你的数据来源。

 运用
零替代
缺失值

运用
恣意
值替代
缺失值比缺失值自身

更糟糕。这可能是人类无意义思索

的结果,也可能是不知道

怎样
处置
空值的自动化处置
构成

的。无论怎样
,假定

你看到一长串的零,应该问自己

,这些值真的是零,还是表示“没有”(有时分
也会用 -1)。假定

你不肯定
,请检查你的数据来源。

 行或值重复

假定

同一行数据不止一次出往常

数据集中,你应该找出缘由
,有时它可能不是一整行都一样。一些活动财务数据包含了一些修订数据,这些修订数据运用
了与原始买卖
相同的独一
标识符。假定

你不知道

这点,那么你对数据所做的任何计算都是错误的。假定

某些东西看起来应该是独一
的,那就考证
它。假定

你发现它不是,请检查你的数据来源。

 拼写不分歧

拼写检查是判别
数据能否
由手动输入的最显然
的方式之一。不要只看人们的名字——这些常常
是最难检测到拼写错误的中央
——应该查找城市称号
或州名不分歧
的中央
。假定

你发现了这些问题,那么就能够

确信数据是手动编辑过的。手动编辑的数据最有可能出错。这并不意味着你不应该运用
它们,但你可能需求
手动更正这些错误,或者在报告中对其中止

阐明

 日期格式不分歧

下面两个日期哪个是表示 9 月份:

  • 10/9/15
  • 9/10/15

假定

第一个是欧洲人写的,第二个是美国人,那么它们两个都是表示 9 月份。假定

你不知道

数据的来源,你就无法肯定
。所以要肯定
你的数据来自哪里,并确保它是由来自同一大洲的人生成的。

 没有指定单位

weight 和 cost 都不能传达关于计量单位的任何信息。不要以为
美国境内消费
的数据就一定是以磅和美圆
为单位。本地货币中可能会提到到国外的价钱
。假定

数据没有指定单位,请检查你的数据源。

 来源没有记载

数据通常由各种个人和组织创建

,包括企业、政府、非营利组织等。我们经过
很多不同的方式搜集
数据,包括问卷调查、传感器和卫星。了解

你的数据来自哪里能够

让你深化
了解

它的局限性。

例如,问卷调查数据通常都不会很详尽。传感器的精度各不相同。政府常常
不愿意给你无成见
的信息。由于存在穿越阵线
的风险
,来自战区的数据可能具有猛烈

的地域成见
。更糟糕的是,这些不同的来源经常混在一同
。政策剖析

师经常会打乱从政府搜集
来的数据。医生指定的数据可能是由护士输入。每种状况

都有可能发作
错误,所以还是要检查你的数据来源。

 数据太粗糙

你有州的数据,但你需求
的是县的数据。你有雇主的数据,但你需求
的是雇员的数据。他们给了你几年的数据,但你想要几个月的数据。在很多状况

下,我们搜集
的数据关于
我们的运用
目的而言曾经
太过了。

一旦数据兼并
在一同
,通常很难再把它们分开。假定

你提供的数据太粗糙,就需求
向数据来源索要更细致

的内容。他们可能没有。即便

有,也可能无法或不愿意把它们交给你。为了维护
个人隐私,很多联邦数据集无法在本地访问。

永远不应该做的一件事是将年度数据除以 12,并称之为“每月平均

值”。假定

不知道

数值的细致

散布

,那么这个数字就没有意义。这是错误的,所以不要这样做。

 具有
65536 行数据的电子表格

老式 Excel 电子表格允许的最大行数为 65,536。假定

你收到具有该行数的数据集,则简直

能够

肯定你收到的数据是被截断的。较新版本的 Excel 支持 1,048,576 行,因而

数据行不太可能抵达

极限。

 具有
255 列数据的电子表格

Apple 的 Numbers 应用程序只能处置
包含 255 列的电子表格,并且应用程序会截断具有更多列的文件而不会正告
用户。假定

你收到的数据集正好为 255 列,那么就要确认这个文件能否
在 Numbers 中翻开
或转换过。

 文本被转换为数字

并非一切
的数字都是数字。例如,美国人口普查局运用
“FIPS 代码”代表美国的每一个中央
。这些代码具有不同的长度,都是由数字组成,但它们其实不是数字。037 是洛杉矶县的 FIPS 代码,不是指数字 37。37 是北卡罗来纳州的 FIPS 代码。Excel 和其他电子表格通常会以为
它们是数字,就把前导零去掉了。

 数字以文本方式
保管

在运用
电子表格时,数字可能会被保管
为文本。例如,一个单元格可能运用
字符串“1,000,000”、“1 000 000”或“USD 1,000,000”,来表示百万美圆
,而不是直接运用
数字 1000000。Excel 能够

应用
内置函数来处置
一些简单的状况

,但通常需求
运用
公式去除字符,直到单元格的内容能够

被辨认

为数字。最好的做法是不运用
格式来保管
数字,并在列名或元数据中包含相关信息。

应该由你自己

处置

的问题

 文本乱码

在绝大多数状况

下,你的文本编辑器或电子表格应用程序会找出正确的编码,但是,你可能会发现某些人的名字中有怪异的字符。你的数据来源应该能够

通知
你数据采用了什么编码。假定

他们无法提供这些信息,你能够

经过
一些牢靠

的方式猜出来,或去问程序员。

 换行符是乱码

一切
文本和“文本数据”文件(如 CSV)都运用
不可见字符来表示换行符。Windows、Mac 和 Linux 不时

以来没有在换行符该运用
什么字符上达成过火

。试图在一个操作系统上翻开
在另一个操作系统上保管
的文件有时会招致
Excel 或其他应用程序无法正确辨认

换行符。

通常,只需在通用文本编辑器中翻开
文件并重新保管
即可轻松处置

该问题。假定

文件特别大,你可能需求
思索
运用
命令行工具或向程序员寻求辅佐

 PDF 中的数据

大量的数据——特别
是政府数据——只能以 PDF 格式提供。假定

你在 PDF 中有真实的文本数据,那么能够

经过
几种方式来提取它们。Tabula 是一个优秀的免费工具。假定

你订阅了 Adobe Creative Cloud,那么能够

运用
Acrobat Pro,它提供了将 PDF 表格导出到 Excel 的功用

 数据太细

这与数据太粗糙刚好相反。在这种状况

下,你有县的数据,但你想要州或有几个月的数据。所幸的是,这通常很简单。

能够

运用
Excel 或谷歌文档的数据透视表(Pivot Table)功用
来汇总数据。透视表是每个记者都应该学习的神奇工具,但它们也有其局限性。关于
十分

大的数据集,你应该向程序员求助,他们能够

制定一个更容易考证
和重用的处置

计划

 手动输入的数据

手动数据输入是一个常见问题,至少在这里描画

的其他问题中有 10 个与它相关。没有比让一个人输入数据却没有对其中止

考证
更糟糕的方式来搞砸数据了。例如,我曾经拿到伊利诺伊州库克县完好
的养狗允许

数据库。系统创建

者让狗的主人经过
一个文本框输入狗的质量
,而不是提供一个狗的质量
列表给他们选择。结果这个数据库呈现
了至少 250 个不同的吉娃娃种类

 数据与格式和注释混杂在一同

HTML 和 XML 复杂的数据表示在数据和格式之间有明晰
的分隔,但关于
电子表格的数据表示来说并非如此。电子表格数据的一个常见问题是,前几行数据理论

上是关于数据的描画

或备注,而不是列标题或数据自身

。数据字典也会被放在电子表格的中,标题行可能会重复

,或者在同一张表格中包含多个表(可能有不同的列标题),而不是分红
不同的表格寄存

很显然
,试图对具有这些问题的电子表格中止

剖析

都会失败。所以,在初次
查看新数据时,请确保数据中不包含额外的标题行或其他格式化字符。

 基于缺失值中止

聚合

想象
一个数据集有 100 行数据,其中有一列叫作 cost。在其中的 50 行中,cost 列是空白的。那么该列的平均

值是多少?是 sum_of_cost/50 还是 sum_of_cost/100?没有一个明白
的答案。普通
状况

下,假定

要在缺失值的列上中止

聚合,能够

先安全

地过滤掉带有缺失值的行。在某些状况

下,缺失的值也可能被设置为 0。假定

你不肯定
,请向专家咨询,或者不要做聚合计算。

 误差幅渡过

没有什么能够

比运用
误差幅度很大的数据得出的报告包含更多的错误。而不是具有十分

大的错误余量的数字的非反响
性运用
。误差幅度通常与问卷调查数据有关。投票数据或美国人口普查局的美国社区调查数据是最有可能呈现
误差幅度的。误差幅度普通
用于权衡
真值的范围。它能够

表示为一个数字(400 +/- 80)或百分比(400 +/- 20%)。相关人口越少,误差幅度就越大。例如,依据

2014 年 5 年的 ACS 估量
,寓居
在纽约的亚裔人数为 1,106,989 +/- 3,526(0.3%)。菲律宾人的数据量
是 71,969 +/- 3,088(4.3%)。萨摩亚人的数据量
是 203 +/- 144(71%)。前两个数字是安全

可信的,但第三个数字不应该用于已发布的报告。关于什么样的数字不能够

运用
并不存在规则,但阅历

通知
我们,应该谨慎

运用
误差幅度超越
10%的数字。

 误差幅度未知

有时分
,问题不在于误差幅渡过
大,而在于没有人想过要弄分明

它究竟

是什么。这是一个不科学的民意调查询
题。假定

不计算误差幅度,就不可能知道

结果的精确

水平

。作为普通
规则,只需
你有问卷调查数据,就应该询弄误差幅度是什么。假定

数据来源无法提供这一信息,那么这些数据可能不值得用在剖析

上。

 数据样本有成见

有成见
的样本是由不谨慎

的抽样招致
的,或者有人故意

扭曲。样本可能包含成见
,由于
它是从互联网上搜集
的,而穷人不像富人那样能够

频繁运用
互联网。问卷调查必需
认真
加以权衡,以确保它们掩盖
一切
的人口比例,避免

呈现
扭曲。要圆满
做到这一点简直

是不可能的,所以人们经常会做错。

 数据被手动编辑过

手动编辑存在的问题简直

与人类输入数据的问题相同,只不过它是在后面才发作
。事实上,手动编辑数据通常是为了修复人类最初输入的数据。当编辑人员不完好

了解

原始数据时,就会呈现
问题。我曾经看到有人自发地中止

“修正”,将数据集中的 Smit 改为 Smith。那个人的名字真的是 Smith 吗?我不知道

,我只知道

往常

值呈现
了问题。

 通货收缩
歪曲了数据

通货通胀表示货币的价值随着时间的流逝而发作
变化。我们没有办法

经过
察看

数字来判别
数字能否
曾经
呈现
了“收缩
调整”。假定

你在取得

数据后不知道

它们能否
曾经
被调整过,请检查你的数据来源。假定

他们没有中止

过调整,你可能会想要自己

中止

调整,能够

借助这个工具 http://inflation-adjust.herokuapp.com 中止

数据调整。

 自然 / 时节
变化歪曲了数据

由于某些潜在的缘由
,很多类型的数据会发作
自然动摇
。最著名的例子就是随时节
而变化的就业方式
。经济学家曾经
开发出各种补偿这种变化的办法

。这些办法

的细节并不重要,重要的是要知道

你运用
的数据能否
曾经
经过“时节
性调整”。假定

他们没有,并且你想比较

每月的就业状况

,你可能需求
向数据来源所要调整过的数据(自己

调整它们要比收缩
调整要艰难

得多)。

需求
由第三方专家帮你处置

的问题

 作者不可信

有时分
,你具有
的独一
数据是来自你不想依赖的来源。在某些状况

下,这很好。只需

枪械制造商才知道

他们究竟

消费
了多少把枪。但是,假定

你的数据来自可疑制造商,那么请务必与其他专家核对,最好与两三个专家一同
检查。除非你有确凿的证据,否则不要发布来自包含成见
的来源的数据。

 搜集
过程不透明

在数据搜集
过程中引入不真实的假定
、错误或地道
的错误
是十分

容易的。因而

,搜集
数据的办法

必需
是透明的,这一点很重要。很少有人知道

数据集是怎样
搜集
的,不过能够

从一些表象看出问题来,比如

不真实

际的断言精确

度和结果好过头的数据。

 不真实

际的精确

除了硬科学之外,很少有东西会以超越
两位小数的精确

度中止

丈量
。假定

某个数据集企图
将工厂的排放量显现
在小数点后第七位,它们可能是从其他数值预算
出来的。它们常常
是错误的。

 莫明其妙
的异常值

我最近创建

了一个数据集,表示音讯

经过
互联网抵达
不同目的地需求
多长时间。除了其中的三个超越
了 5000 秒,其他一切
时间都在 0.05 到 0.8 秒的范围内。这表示数据生成过程中呈现
了问题。我写的代码呈现
了一个错误,招致
在发送和接纳
其他音讯

时,无法计算某些音讯

的时间。

这些异常值可能会极大地影响你的统计数据——特别是假定

你要运用
平均

值(你应该运用
中位数)。在取得

一个新数据集时,最好先查看它们的最大值和最小值,并确保它们处于合理的范围内。假定

数据正确,你可能还想运用
规范

倾向

或中位数倾向

中止

愈加
严厉
的剖析

异常值常常
是找出问题的好办法

。假定

真的有一个国度
在互联网上发送一个音讯

多破费

了 5000 倍的时间,那就有意义
了。

 指数掩盖了底层的变化

想要跟踪问题趋向
的记者通常会创建

各种价值指数来跟踪进度。运用
指数没有任何内在问题,它们有很好的解释力。但是,要留意
那些由离散指标组合而成的指数。

例如,分别

国性别不对等
指数(GII)由与妇女对等
展开

进程相关的几项指标组成。GII 采取的指标之一是“妇女在议会中的代表权”。世界上有两个国度
的法律规则
在其议会中需求
有不同性别比例的代表:中国和巴基斯坦。因而

,这两个国度
在指数上的表现要好于其他国度
。这能否
公平?这并不重要,由于
任何不了解

这个状况

的人通常都会感到困惑。在运用
GII 和相似

指数时应该中止

认真
的剖析

,以确保底层的变化不会以意想不到的方式构成

指数的动摇

 结果被 p-hack

P-hacking 故意

改动
数据、改动
统计剖析

结果或有选择地报告结果,以取得

具有统计意义的结果。这方面的例子包括:一旦有了重要结果就中止
搜集
数据,删除察看

结果以取得

重要结果,或者执行多次

剖析

,只报告少数重要结果。关于这个问题曾经
有一些报道 http://fivethirtyeight.com/features/science-isnt-broken。

假定

你要发布
研讨
结果,你需求
了解

p 值是什么,它意味着什么,然后对结果能否
值得运用
做出明智的决议
。许多渣滓
研讨
成果让它出往常

主要的出版物中,由于
记者不了解

p 值是什么。

 Benford 定律失效

Benford 定律是一种理论,即小数字(1,2,3)出往常

数字开头的频率比大数字(7,8,9)大得多。理论上,Benford 定律能够

用来检测会计或选举结果的异常状况

,但理论

上它很容易被误用。假定

你狐疑

某个数据集已被窜改
,Benford 定律是一个很好的检验伎俩

,但在得出数据被窜改
的结论之前,应该先与专家考证
你的结果。

 结果好得过了头

没有人知道

生活在西伯利亚的确

切人数。跨境立功

统计数据不具可比性。美国政府不会通知
你它手上有多少裂变资料

关于
那些宣称

能够

通知
你某些你不可能知道

的”真相“的数据要特别留意

。它们不是数据,可能只是某些人的臆想,而且是错误的。有可能它只是个趣闻,所以务必和专家确认。

应该由程序员帮你处置

的问题

 基于错误的类别或地域
聚合数据

有时分
你的数据具有恰到益处

的细节(既不太粗糙也不太细化),但是它们曾经
依照

你不想要的分组中止

了聚合。举个典型的例子,一组依照

邮政编码中止

聚合的数据,但你希望能够

依照

相邻的城市中止

聚合。在很多状况

下,假定

不从数据来源获取更多细化的数据,就不可能处置

这个问题,但有时能够

将数据按比例从一个组映射到另一个组,但要十分

留意

不要在这一过程中引入误差幅度。假定

你依照

错误的组聚合了数据,请向程序员求助,看看能否
能够

重新聚合数据。

 扫描文档中的数据

多亏了 FOIA,政府常常
需求
向你提供数据,即便

他们真的不想。在这些状况

下,一个十分

常见的战略
是让他们给你数据页的扫描或照片。它们可能是图像文件,或者是 PDF 文档。

我们能够

从图像中提取文本并将其重新转换为数据。这是经过
称为光学字符辨认

(OCR)的技术完成的。现代 OCR 技术通常能够

抵达

100%的精确

率,但它十分

依赖于文档的质量。每次运用
OCR 提取数据时,你都希望有一个过程来考证
结果能否
与原始数据匹配。

有很多网站能够

上传文件中止

OCR 操作,但也有免费工具可让程序员调整你的文档,能够

向他们求助,看看怎样更好地处置
你的 PDF 文档。

英文原文:

https://github.com/Quartz/bad-data-guide

发表评论

评论已关闭。

相关文章