数极客首页

大数据时代实验室经理应该如何挖掘其中宝贵信息?

现在,实验室经理之间在大数据方面的较量不是看谁能产生更多的实验数据,而是看谁掌握了最佳的数据分析能力。

不久之前,我们已经了解有关大数据在数据即时处理速度(Velocity)、数据格式多样化(Variety)与数据量规模(Volume)这三个维度的强大性能。当规模、速度以及覆盖范围仍旧是数据的关键特性时,我们可以借助数据进化的大好时光,好好的利用数据资源,完成我们以前的夙愿。

其实利用数据的能力并不是体现在你有多么庞大的数据资源,而数据分析能力才是出奇制胜的法宝,哪怕你的数据量比别人要少。因此你需要掌握统计学、计算方法还有强大的算法。当有越来越多的人开始使用机器学习工具对数据进行处理、挖掘并理解数据蕴含的奥秘时,无论是数据进化的速度,还是人们处理数据的速度,都变得比以前更快。

全球知名高级分析工具供应商SAS发布的一篇文章题为“a method of data analysis that automates analytical model building”,这篇文章的作者强调说:机器学习所使用的算法从数据当中以迭代的方式学习到的内容可以“让计算机系统清楚的发现即使是经过编程也无法找到的新的领悟。

实验室所产生的大数据的身价正在不断攀升,因为这里有各种企业所需要的依靠数据资源进行有效管理和生产的资源。临床实验室长久以来都是健康医疗行业数据的宝贵源泉。在2015年斯坦福大学的“大数据与生物医学年会”上,IBM Watson集团的医疗和生命科学专家——Rob Merkel教授指出,团队可以借助两种方式搜集合理信息——知识和数据驱动。其中以知识的方式搜集信息就是说在每年新出版的700,000篇科学文章以及与临床实验室紧密相关的180,000项临床研究的基础上总结归纳出的信息;而数据驱动方式就是说,平均每个人一生当中会产生400千兆字节的数据,再加上个体内6千兆字节的基因组数据——这些都与临床实验室密不可分,因此这些数据将驱动科学研究产生更多的新知识。

大数据时代实验室经理应该如何挖掘其中宝贵信息?

Rob Merkel is the Healthcare & Life Sciences Leader within IBM Watson Group. In this role, he is responsible for IBM’s portfolio of transformational solutions enabled by Watson cognitive computing and machine learning capaBIlities globally.

来自美国阿贡国家实验室的助理研究员Jarrad Hampton-Marcell说即使大数据这个字眼并不会经常出现在他们的日常工作中,但在日常的研究工作当中,由于他们已经挖掘并管理了大量的数据资源,因此大数据从各个方面都在影响着他们的研究工作。他的工作主要承接来自全球知名科研协会的研究任务,比如说地球微生物组计划(Earth MicroBIome Project),这个项目主要集中于与微生物生态有关的DNA提取,建立标准化的方法论和途径。

这个包含了10,000个研究并涉及100,000名合作伙伴的项目将会促进横跨多个地域的微生物数据的比较,这样可以加强人们对不同环境下生物过程的进一步理解。Jarrad Hampton-Marcell说他们的实验室每年要处理大概20,000个样本。

大数据时代实验室经理应该如何挖掘其中宝贵信息?

A Research Coordinator at Argonne National Laboratory and PhD Candidate at University of Illinois Chicago, Jarrad utilizes metagenomics to understand microBIal interaction in host-related systems and the built environment including collaborations with the University of Chicago Hospital, Exxonn MoBIl and Metropolitan Waterway Reclamation District of Greater Chicago.

当这个项目研究个体或者生物群落的基因组的同时,它也可以研究不同环境之间的关联性——通过建立主要条件变化所引起的生物及其群落的反应模型,从而进行更广泛的相互作用和关联性研究。他说,在强悍测序工具和超级计算机的辅助下,他们主要研究的就是第二代测序技术,这种技术可以让他们从特定环境角度观察每一种群落的特征,而且不再仅仅观察其结构和功能,还需要观察不同环境标记作用下它们之间的关系。

他说现在这种功能强大的测序仪可以将生成的数据传输给超级计算机,这些计算机所运行的大量算法可以处理成百上万个数据点。这种算法不仅速度惊人,而且准确率也是一大优势。

在这种技术出现之前,科研人员不仅仅对各种疑问心存困惑,还能发现身边很多新的问题。Hampton-Marcell解释说那时候还没有可以指导我们进行分析的技术,这就是我们最大的局限。不过到现在仍存在着挑战。大数据分析并不像一般意义上的可控试验,因为你驾驭大数据的能力会受到一些局限和挑战,尤其是数据里面会存在很多变量和干扰因素时,想要调整数据对结果的影响的确需要一些前所未有的分析能力和工具。

不过,超级计算机的诞生的确为我们提供了强悍的解决办法。“以前我们真的无法考量所有数据,只能通过几个具有代表性的分析样本对全体数据进行计算。”来自赛默飞世尔科技的信息与色谱解首席决方案策略专家Trish Meek如是说。

现在我们有了超级计算机,再也不用为了采集数据子集问题而担忧了——你真的可以挖掘并充分利用你手中拥有的数据资源。Trish Meek说在过去的五六年当中,我们的客户对这种可以使用全部自来他们的数据进行研究和决策的做法非常感兴趣。

她说最近几年,实验室工作的重点已经不再像前几年那样想方设法发现并修复现有问题,而是将重点转移到检测潜在的将来可能发生的问题并采取必要行动避免问题的发生。“这就是问题的核心。现在我们不是召回问题产品并切断生产线,而是‘想办法如何一开始就阻止问题产品的产生。’”

“我们的客户现在希望可以借助这几点来达成这种想法,”她说,首先,实验室正在成为串联客户系统的连接器,为了确保决策有据可依,无论是企业内部类似天平这种小型设备,还是像色谱系统这样的大型仪器系统,我们都应该将他们统统链接起来,这样才能将企业内部的所有信息练成一个通道。

她还指出现在人们逐渐开始意识到手工创建的信息库,和那些使用IBM沃森这种高度智能化的系统相比,前者会存在信息遗漏甚至故意排除的可能,而且还会妨碍有效利用实验室内部所有信息。“这就是我们现在看到的一个最大障碍。”

另外Trish Meek还说赛默飞世尔的客户也许真的在利用实验室之外也可以运行的工具或者软件。客户们现在都有一个IT部门,这个部门主要是从实验室、生产场所、ERP系统以及LIMS系统当中抽取信息并进行分析,因此他们可以从全局着眼掌控所有数据。“但是,问题的关键是LIMS可以将实验室内部所有信息收集到一个位置保存,因此,只需要这一种系统就可以帮助他们得到实验研究的答案。”

Andy Walker,美国国家可再生能源实验室(NREL)的首席工程师目前正在忙于可再生能源优化项目(REopt -Renewable Energy Optimization,该项目在2007年启动,一开始叫做REO),他正在寻求一种更经济划算的新能源项目的自动识别技术。他说:“REopt的目标就是减少项目成本的生命周期。”

大数据时代实验室经理应该如何挖掘其中宝贵信息?

Dr. Walker conducts eng ineering and economic analysis of energy efficiency and renewable energy projects in government facilities such as National Parks and Military Bases and corporate facilities such as Verizon, and Frito Lay North America.

他说可再生能源项目的典型约束包括类似这样的合同条款:项目当中需要包含30%的可再生电力能源、20%的低碳排放能源(这也是很多企业的目标)、净零能耗、土地使用限制以及其他方面的启动成本限制。在Andy Walker看来,约束条件也是整个项目当中最有趣的部分,因为从约束条件当中我们可以发现问题的根源,并据此形成可行性推荐方案。

Andy Walker根据他们的项目,将大数据定义为一种结构化的数据库手段,可以收集、验证、管理、查询、可视化并实现大量信息分享的可能。

Walker 说Reopt利用来自资源(来自美国以及很多其他地域的太阳能、风能和生物质资源)当中的数据、公用事业数据(包括民用、商用以及工业用公共事业数据、与净计量电价有关的政策和分散式发电装置之间的互联情况)成本调整因素以及可用激励因素的的安排等。

他说“所有这些资源信息都需要依靠NREL日常维护的地理空间信息系统来实现,这个系统可以让具体地点的数据让工业或者民众使用。我们客户所需要的信息,比如说每一个场所使用的不同燃料用量和用电量、可用土地面积以及其他方面的信息,在我们检测这些数量众多的现场时,都将依靠大数据来实现。

Walker说,反思传统手段,我们会发现在大数据出现以前,企业级别的规划项目所需成本往往高的离谱,而且也会耗费很多时间。虽然现在还是可以使用某些现有工具和软件进行单一场所的可再生能源指标的检查,但是我们可以借助大数据手段来寻找最优工具组合方式进行测量,这种方式完全可以同时对某个运营一整套体系或者不动产的机构或者企业的多个场所进行测量。

“比如说我们最近为美国一个电信公司所运营的44,000个手机信号塔的光伏和风力发电项目的运营规模及其能源、成本以及碳减排能量等信息给出了我们关于运营规模的建议。如果没有大数据和自动计算手段的话,依靠传统方式,我们则需要120年才能交付这个项目的建议规划书。但是现在我们有了自动算法这种快捷准确的工具,再加上手头现有的大数据资源,我们在三个月之内就交付了这个项目,现在这个公司已经进入试点环节,开始执行我们根据研究所给出的这个超级节省成本的项目。

让我们把目光转向技术层面,Walker说,2007年他在一种使用改进的算法进行整个域搜索的基础之上发明了REO,之后使用梯度下降算法进行了微调。

大数据时代实验室经理应该如何挖掘其中宝贵信息?

之后,我的同事Travis Simpkins还有我们的团队对REopt进行编程,编程方法当中混合了整数线性规划算法。REopt执行的是时间序列计算法,这种算法可以进行高分辨率的时间序列分析,并具备非常详细的储存空间处理能力,因为数据处理系统所需的储存空间成本越来越低的同时间歇性可再生能源的出现也会越来越频繁。

Walker说大数据在可再生能源行业当中的应用已是箭在弦上。他解释说“我们使用大数据来界定经济划算的项目,但是当项目落成之后,我们还可以根据大数据来制定更加合理的资产运作和管理方式。为了确保分布式可再生能源项目数量不断增长,我们需要很多细节信息,而这些信息也只有大数据才能提供。

发表评论

评论已关闭。

相关文章