数极客首页

数据分析的核心:建模

为什么我们要系统的研究建模过程?我们去扩展一个学科边界的两条路径,去研究底层概念去扩展应用领域,我们今天从底层入手。

数据分析的核心:建模

为什么我们要通过模型认识世界?

为什么我们不直接认识世界,而是要通过模型?

生命有限,时间有限,我们不可能面面俱到的去考察世界的方方面面,我们必然需要作出选择,去找到关键,模型就是一系列积累了前人的认识和描述世界智慧的经验.。生活中我们,都在自觉或者不自觉的使用模型。

举个栗子:我们马上要期末了,经过认真的学习,我们考了80分,自我感觉不错啊。都80分了,应该算是个优了。但是实际上可能存在这样一些情况:满分是200分……全班平均分90分……

这个过程中,我们无形之中使用了一个模型叫做比较:量纲一致,有基准的情况下,a>b才有意义。 围绕这个简单的模型,各个学科发展出了庞杂的应用,比如:经济学中的成本/金融学中的理想收益基准等等。

为什么我们要系统的研究建模过程?我们去扩展一个学科边界的俩条路径,去研究底层概念去扩展应用领域。我们今天从底层入手。

1. 模型的概念

数据分析的核心:建模

为了打破大家对于模型先天的一些偏见,我们先从本质上看模型到底是什么?模型其实就是抽象空间的一套演绎体系。

我们先看一下什么是抽象空间?

抽象空间是相对于现实空间而言的,现实中我们面对的世界往往是无穷无尽的,世界上有无穷的对象,每个对象有无穷的维度等着我们去认知,面对这样的世界,我们是没有办法直接去认识,我们需要主观的先建立一套选择标准,再选择一些特定对象,选择一些特定的维度,特定的过程,这个选择构成的集合就叫做抽象空间。

有些抽象空间是杂乱无章,互相矛盾的,比如:我们大多数普通人的思维世界其实就处在这样一个状态,大多数时候,我们不知道自己的信仰是什么,不知道自己世界观是什么,也不知道自己的价值观是什么,个人选择受环境的干扰特别大。

然而,还有一类抽象空间,里面的假设非常坚固,或者反映了人类社会的普遍诉求,比如:公平/正义/自由等,或者反映了科学共同体的基本共识,比如:能量守恒;或者是完全建构在抽象世界里的描述,比如:俩点之间直线最短。演绎论证非常严密,这一类抽象空间构成了人类智慧的结晶。

我们这里的模型,特指后者,一些凝聚了人类发展过程中智慧结晶的抽象空间描述。

知道了什么是模型,我们再来看看什么是建模过程? 建模的本质其实是 现实世界和抽象空间的映射。

数据分析的核心:建模

在数学里,映射是个术语,指两个元素的集之间元素相互“对应”的关系。从这个定义里就可以看出,建模其实不存在绝对的对错,建模的方式,因为映射空间的不同,也可能存在千万种,但是我们如何选择建模方式呢?毕竟我们不能挨个建一遍吧?

我们评价一个模型的好坏可以从俩方面展开:

  1. 模型是否反映了对象的重要特征;
  2. 模型和现实的拟合情况(解释/预测/复现)。

最后需要指出的是,任何模型都是一部“有色眼镜”,它在帮我们看清一些东西的时候,同时也遮蔽了我们对另外一些对象的观察。

所有模型都是错的,但是有些模型是有用的。

2. 数学建模的过程

数据分析的建模过程中,大多数时候,我们还是选择数学空间作为我们的映射对象。数学建模是应用学科的核心内容,任何一门科学都是在数学的框架下表达自己解决问题的思想和方法,并和别的专业或者方向分享这些思想和方法。任何一门学科,只有当其使用数学时,才是好的精确的学科。

分析实际问题中的各种因素,使用变量表示;分析这些变量之间的关系,哪些是相互依存的,哪些是独立的,他们具有什么样的关系;根据实际问题选用合适的数学框架(典型的有优化问题,配置问题等等),并具体的应用问题在这个数学框架下表出;选用合适的算法求解数学框架下表出的问题; 使用计算结果解释实际问题,并且分析结果。

(1)模型假设

根据对象的特征和建模目的,对问题进行必要的、合理的简化,用精确的语言作出假设,是建模至关重要的一步。如果对问题的所有因素一概考虑,无疑是一种有勇气但方法欠佳的行为。

所以高超的建模者能充分发挥想象力、洞察力和判断力,善于辨别主次,而且为了使处理方法简单,应尽量使问题线性化、均匀化。

(2)模型选择

根据所作的假设分析对象的因果关系,利用对象的内在规律和适当的数学工具,构造各个量间的等式关系或其它数学结构。这时,我们便会进入一个广阔的应用数学天地,这里在高数、概率老人的膝下,有许多可爱的孩子们,他们是图论、排队论、线性规划、对策论等许多许多,真是泱泱大国,别有洞天。

不过我们应当牢记,建立数学模型是为了让更多的人明了并能加以应用,因此工具愈简单愈有价值。

(3)模型求解

可以采用解方程、画图形、证明定理、逻辑运算、数值运算等各种传统的和近代的数学方法,特别是计算机技术。一道实际问题的解决往往需要纷繁的计算,许多时候还得将系统运行情况用计算机模拟出来,因此编程和熟悉数学软件包能力便举足轻重。

(4)模型分析

对模型解答进行数学上的分析,“横看成岭侧成峰,远近高低各不同”。能否对模型结果作出细致精当的分析,决定了你的模型能否达到更高的档次。还要记住,不论那种情况都需进行误差分析,数据稳定性分析。

(5)模型应用

把数学上分析的结果翻译回到现实问题,并用实际的现象、数据与之比较,检验模型的合理性和适用性。

(6)模型评价

取决于问题的性质和建模的目的。

3. 模型空间概述

模型的分类标准,也可以表达成模型有几方面的特征.这里做一个简单的列举,下次会结合具体案例对每类模型做一个简单综述:

数据分析的核心:建模

总结

所有模型都是错的,但是有些模型是有用的。

数据分析的核心:建模

 

作者:小祁爱数据,公众号:小祁同学的成长故事

本文由 @小祁爱数据 原创发布。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

给大家推荐我国新一代大数据用户行为分析与数据智能平台:数极客(https://www.shujike.com),是支持无埋点、前端埋点、后端埋点、API导入四种混合数据采集方式,整合分析用户行为数据和业务数据,可以自动监测网站、APP、小程序等多种渠道推广效果分析,是增长黑客们必备的互联网数据分析软件。数极客支持实时多维分析、漏斗分析、留存分析、路径分析等十大数据分析方法以及APP数据分析网站统计网站分析小程序数据统计用户画像等应用场景,业内首创了六种提升转化率的数据分析模型,是数据分析软件领域首款应用定量分析与定性分析方法的数据分析产品

发表评论

评论已关闭。

相关文章