数极客首页

在应用机器学习时如何处理不良数据?

 

译者 | 郝毅编辑 | Debra微信公众号 | AI 前线(ID:ai-front)

从推进
复杂市场的预测剖析

到到效率更高的自动化流程,技术显然
能够

加速化企业在前沿竞争的步伐。但是,假定

推进
这些创新的数据良莠不齐,那么不论

运用
哪种工具效果都会大打折扣。

“数据质量不佳是障碍
机器学习普遍
展开

的主要缘由
”——数据质量管理的先驱者之一,数据博士 Thomas C. Redman 如是说,当然这样想的不止他一个人。

众所周知,锻炼
数据决议
了机器学习系统的性能。高质量的数据能够

得到更好的结果,不好的数据会流经整个系统产生没用的信息。

下面我们就来谈谈错误的数据是怎样
影响机器学习的,以及怎样
减轻风险。

在数据缺陷带来的影响中,公司第一
看到了错误剖析

、错误预测和糟糕决策。随着人工智能技术越来越盛行
,高质量的机器学习的需求越来越明晰
,计算机科学的 GIGO 准绳
变得愈加
重要了。

Redman 提示
我们“不良数据的引入可能会出往常

两个中央
:第一个便是用于锻炼
模型的数据,第二个便是用于测试的新数据。虽说数据科学家和工程师正在努力的精炼他们的人工智能、机器学习和深度学习算法,但是“只需

%3 的公司”能够

提供契合
基本

质量规范

的数据。

我们不能将失败归结于机器,但是我们能够

采取一些措施缓解不良数据产生的影响。

数据丧失
或不完好

有些时分
,由于某些信息不能直接获取到,数据会被组兼并
某些字段中止

留空。或者当数据被搜集
时执行的剖析

和当前的剖析

所面临的目的
不同,招致
某些值被省略。但是
,但是
,学习,解释和预测 ——ML 的主要目的
,很难经过
不完好
的信息来完成

面对上述问题,对应的处置

计划

是:固然

消弭
问题数据的办法

对结果会有很大提升,但是仅在问题数据所占比例较小时分
,这种办法

的去除效果会比较

好。另一种计划

是运用
合成数据:经过
算法创建

契合
真实数据特征的模仿

数据。合成数据是一种新兴技术,能够

辅佐

消弭
访问完好
锻炼
数据的障碍。

数据不精确

部署 ML 项目时的是在锻炼
预测模型之前清洗数据。但清洗数据并不总能辨认

或纠正每一个错误,并且数据依然

可能会不圆满
。 数据科学家曾经
破费

了大部分

时间来对立
这一问题,但是
,一个预测模型的输出会作为后续模型的输入,这意味着即便

是一个小错误也会产生显著的负面影响。

面对上述问题,对应的处置

计划

是:提供足够的时间清洗数据,评价
数据源并在每个阶段对性能中止

测试。 坚持
数据集的清洁是很艰难

的,但假定

将清洗数据的任务分配给特定的团队,则会变得容易。 为传入数据的质量创建

和执行明白
的规范

,并立刻

寻觅
并消弭
错误的基本

缘由

数据有倾向

在机器学习锻炼
过程中,假定

数据存在倾向

,数据的完好
性会受损,这会直接影响到预测结果。例如,当搜索一位女性联络
人时,LinkedIn 的搜索引擎可能存在性别倾向

,从而促使该网站以男性名字作出回应。当在平台上搜索“Michelle”返回“Micheal”时,这是一种惹起
用户恶感

的显然
错误。

面对上述问题,对应的处置

计划

是:确保数据和剖析

数据的算法与当前项目的值和目的
坚持
分歧
。经常检查机器学习模型并认真
检查锻炼
数据,以发现有意和无意的倾向

。假定

发现倾向

,请将其隔离并移除输入数据集中与其相关的部分

总结

发现有缺陷的数据并改进

能够

有效的提升机器学习算法。但是
,Looker(一家抢先
的数据平台公司)首席数据传播者丹尼尔•明茨(Daniel Mintz)强调了一个更令人懊丧
的理想
。“真正令人惧怕
的是何时发现不好的数据。固然
用于清洗数据的时间宝贵

,但没有发现问题而招致
的结果
常常
愈加
可怕。”

他继续说道,“当你知道

你不知道

的时分
,你是很谨慎

的。但是,有缺陷的数据会让你堕入
一种不自知的状态,那么你就有可能依据

这些错误的信息做出错误的决策。这就是真正的风险
所在。“

在你的机器学习项目中树立
质量数据文化是可能的。彻底的测试、清洗和审计确保精确

性,同时认真
的计划

能够

发现并消弭
躲藏
在锻炼
集中的倾向

。最终
,你能够

花更多的时间来了解

您的数据 ——它来自哪里以及你想经过
它完成
的目的
,你的机器学习项目将会更胜利

查看英文原文:

https://towardsdatascience.com/what-to-do-when-bad-data-thwarts-machine-learning-success-fb82249aae8b

发表评论

评论已关闭。

相关文章