数极客首页

大数据过载会适得其反吗?

大数据也会存在过犹不及这码事儿?答案时肯定的。很多时候人们认为数据量越大,我们就越有可能掌握更多的知识,或者抓住那些以前曾被忽视的价值。十几年以前,我们习惯使用湿实验方法进行科学研究,现在有了高性能的光谱技术之后,科学研究可以在一个小小的芯片实验室上完成。我想色谱学界的人士比我们更加了解其中的奥妙。当色谱科学技术(比如说从HPLC到UHPLC)不断发展的时候,大量的科学仪器和软件也应运而生,虽然技术在不断进步,但是这些仪器和软件本身却变得更加错综复杂。毫无疑问,因新软件和技术而诞生的大量数据资源为科技的进步带来了无价之宝。实际上,根据有关统计报告显示,组织机构每年对仪器设备的投资金额高达一百万美元,有80%的组织机构依靠分析数据进行决策制定。正如那些科研人员所经历过的一样,面对如此之多的大量数据资源,有时候真的会让人感到心塞。或者更准确的说,管理这些数据真的是一件让人感到头痛的事。下面我们来细数一下产生这些痛楚的来源。大数据过载会适得其反吗?

当然啦,整体来说,我们不应该将此类问题归咎于色谱分析工作人员或者分析化学家。跨学科领域的科研实验室正在努力应对这些海量信息并寻求提取数据所含价值的办法。但是,数据量超载和很多具有重要意义的数据管理系统的出现等所有的这些现象会是坏事吗?我们是不是都在抱团地怨天怨地呢?

无论现实情况怎样恶劣,随着数据量的日积月累,我们现在有很多种软件管理系统和技术解决让你心塞的问题。

在ACD/Labs,我们着手收集一些与数据管理有关的实验证据。在2015年,我们主动与科研机构当中的科学家、管理人员以及各个级别的执行人员接近,目的是想和他们一起来完成一项调查,为化学数据分析行业提供一份清晰的关于分析数据管理的知识。

我们通过这次调查所发现的结果与项目开始时从用户方收集到的信息如出一辙,同时我们也对该结果表示一点怀疑。

调查结果显示大约有70%的受访者使用的分析技术多达10种,还有来自生产商的种类繁多的仪器用于数据的收集与分析。大多数受访者表示,在分析完成之后进行信息提取的方法没有标准可循,分享以及记录信息的方式也没有标准可循。大家对这样一个游戏肯定不会感到陌生:第一个人将一个故事悄悄的讲给第二个人听,第二个人把听到的故事再悄悄地复述给第三个人······直到最后一个人把自己听到的故事大声地告诉大家。这时候大家听到的故事很可能与故事本身偏差很大,并且与每个人听到的故事也有出入,这说明信息在传递的过程中,某些细节丢失或者以不正确的方式进行传播。

ACD/Labs

Advanced Chemistry Development, Inc.,以下简称ACD/Labs。是加拿大ACD/Labs公司研发的全世界唯一一款将化学结构与分析化学信息完美结合并进行全面的化学数据分析和管理的软件系统平台,为世界范围内的药物研发、化学和材料科学、食品安全等领域提供最优质创新的服务。ACD/Labs本着不断创新的精神陆续推出多种化学软件包,帮助世界范围内的化学科研人员解决不同的科研难题,包括未知化学物质结构解析、谱图预测和解释、色谱方法建立及优化、分析数据处理与管理、理化性质和药物代谢毒性预测、先导物优化设计、化学系统命名等一站式解决平台。ACD/Labs更因其成功挑战了行业至高点计算机辅助解析未知化合物结构,被业内冠以“化学解析的创造者”的美誉。

这种事情在研发实验室当中也经常发生。有超过半数的受访者表示,准确来说这个数字应该是55%,他们共享数据的方式是对话与交流。纸质文件和图像也是比率较高的一种可靠的数据共享方式。数据不仅仅是通过纸质文件或者对话交流的方式进行传播,数据也被保存在了多个没有相关性的地点当中。

大数据过载会适得其反吗?

调查发现大概有90%的公司使用不同的设备品牌进行分析工作,每个公司所使用的系统之间因为生产商的不同而无法相互兼容。这些仪器设备的相互不兼容造成的结果就是让一个公司内部的数据分散成互不相通的“孤岛”,因此公司内部的员工不得不接受各种仪器设备的培训,这些培训不仅仅是在设备引进时关于使用方法的内容,在后期设备进行更新时,还得需要培训。想到这里,我真是不禁为自己没有工作在实验室当中而感到庆幸。

可以肯定的是,发生在研发机构当中的不仅仅是像这个游戏所引发的足以让人发笑的结果。分析数据所依靠的是样本的确定和表征,分析数据还可以用来解决重要的商业问题,比如说专利保护,监管机构的调查以及不一致性问题的解决。无论是制备型HPLC还是生产制造业当中的质量控制,不知道你是否想到了研发当中用于离子净化与分析的各种分离手段呢?

当科学家无法快速获取数据并对数据进行鉴定来得到答案时,他们可能迫不得已重新进行化合物的合成,并从零开始进行分析工作——这种事情经常发生在药物研发环节中,科研机构每天都在烧钱。

让情况更糟糕的是将近有一半以上的色谱分析工作和分析数据的分析工作都被外包出去。当这些被外包出去的数据重返母公司时,这些数据要么已经“半死不活”的以伴有数字和文本格式数据的图像形式出现,要么这些数据已经成为一些无法与母公司系统兼容的原始数据。由此造成的结果就是公司仍旧无法对数据进一步探索并分析其中的异常现象,或者通过数据进行答案的探索。

大数据过载会适得其反吗?

此次调查结果显示分析数据的重要性得到了受访者的一致首肯。80%的受访者表示他们需要根据分析数据的结果进行决策的制定,而且他们所在的组织也会从更加完善的数据搜索与共享方式当中受益。

调查当中所显示的60%的人认为他们所在的组织机构应该为数据管理技术有所投资的结果清晰的表明,实际上现存的很多种技术已经无法兑现其自身当初所承诺的管理数据的非连接性、解决数据的再利用困难、以及可搜索性不高的各种难题。现在看来,想通过一种技术方案一次性解决某个研发组织机构产生的多种不同类别数据的做法还不现实。

大数据过载会适得其反吗?

我们现在都完全意识到了分析数据的重要性,因此研发机构应该考虑出资建立可以专门用于色谱数据和光谱数据的资源库。在我们的被调查对象当中,有一位来自葛兰素史克(GlaxoSmithKline)公司的叫做Steve Thomas的研究员将自己现在面对的难题精辟的概括为:“我们工作时使用分析数据时,就像是在玩拼图游戏似的,想死的心都有。”

从一个地方得到信息很重要,这个地方就是我们自己的大脑,但是当我们的同事退休之后,这些信息也会随之消失。

因此我们需要一个不会像人类一样会忘却会衰老的数据库,这个数据库也不会把信息让竞争对手得到。Thomas先生已经通过对ACD/Labs数据管理平台的运行确保他的研究团队可以从任何资源当中获取数据并进行数据的处理。系统保存记录并维护信息的能力意味着该系统可以提取任何你想要的知识。Thomas说:“所有数据就在那摆着,在拼图中填充自己的位置。”

从科研人员的角度来说,我们需要的就是一种无关乎生产商且统一的方法进行数据的管理,这种方法可以实现数据在一个地方进行集中管理和浏览并在需要的时候可以实现再次查询。

只有当我们可以获取数据、弄懂数据并共享数据的时候,才能让每年花费在分析数据的百万投资值回票价。

撰稿丨Sanji Bhal

翻译·校对·编辑丨丑灿

发表评论

评论已关闭。

相关文章