数极客首页

如何成为一名卓越的数据科学家 ——桃树七剑之二:数据准备中那些不为人知的数据源

关于作者:杨滔,桃树科技(TaoData)创始人,专注于下一代人工智能产品的研发、应用与商业化。拥有超过十年机器学习研究与应用经验。奥克兰大学机器学习博士,悉尼科技大学博士后。曾任阿里巴巴集团数据科学家,建立淘宝网数据科学团队,首创聚划算爆款模型。曾任F团首席科学家,建立F团数据化运营体系。

中国有句老话,巧妇难为无米之炊——在数据准备的环节,数据科学家除了需要精通数据准备的技术,同样需要关注算法技术可以使用的数据源。许多数据源在多个问题中都有基础的价值,然而却鲜为人知。此文意在抛砖引玉,只往冰山一角之下略窥一二。

达人

所谓达人,特指不同领域的专家。

我们不得不承认,在许多复杂问题中,达人的主观判断力比数据更能反应事物本质。是否在这样的问题上,数据科学便没有用武之地了呢?

正好相反——达人本身就是数据,并且在许多场景下是最好的数据源。

我们每天都面临大量非标准化决策,并且越是重要决策其中非标准化成分越多。在这些决策中,我们常常希望知道谁是这个领域的达人,并希望基于达人的意见做出综合决策,甚至在很多的情形下,简单的做跟从决策。

你最喜欢的歌手最近在听哪首歌?你最喜欢的导演最近在看什么电影?你最喜欢的企业家最近在看什么书?这些数据是否会激起你的好奇心和参与感?

在一些情况下,达人的定义本身是模糊的,算法还可以基于用户行为数据判断谁是达人。通过达人用户的行为,算法可以学习多个达人行为从而做出综合决策。

在微博和豆瓣等社交媒体中,不同领域存在着大量公开的达人数据。这些数据不仅包括谁是不同领域的达人,也包括这些达人的行为数据。

达人做了什么,对其他用户往往有着引动和带动作用。算法可以基于达人行为数据,挖掘到不同领域的趋势信息。并根据每个用户和达人的关系,提供基于达人的个性化信息推荐。

在互联网产品的个性化推荐中,如果用户可以找到和自己最像的达人,往往能够带给他们发现感,而不仅仅是重复个人需求

在量化交易领域,一个最简单的交易策略就是基于不同人的历史业绩找到谁是达人,并且侦测达人行为从而制定交易策略。

达人是重要的数据源,基于达人数据量身定做的算法往往可以基于多个达人模拟出一个“超级智能达人”,让人与机器的智慧高度融合。

地理位置

在移动互联网时代,孟德斯鸠的“地理环境决定论”在许多场景仍旧适用。

地理位置数据往往是判断一个人许多属性的基础数据。

地理位置是用户最重要的隐私之一。在信贷业务中,如果一个用户愿意透露他/她真实的地理位置,那么往往意味着他/她有很强的还款意愿。同时,某些地区存在大量赌博群体和造假群体,这些地区的用户往往都不适合放贷。

一个用户在电商网站或APP的许多行为数据都是片断的、不准确的,但收货地址数据一定是准确的。并且,不同时间的收货地址往往可以判断出用户的居住地和工作地。

在一个居住位置附近的用户群体,往往在消费力上有明显的相似之处。在一个工作位置附近的用户群体,一般都是相同职业,-例如,学生/公务员/医生/企业/事业单位/蓝领等等。我们可以基于位置信息,准确刻画用户的本质信息,从而大幅度提高营销活动的响应率。

如果一个产品可以获取用户大量的行为轨迹,则它对用户的了解可能是最多的。去哪儿/携程等产品最有价值的数据源之一就是可以捕捉到那些经常出差于大城市的用户,这个用户群体的消费力一定显著高于其他用户群体。

PC互联网的流量围绕着关键字,而移动互联网的流量围绕着“人”和“位置”。在出行、餐饮、旅游、线下购物等许多场景中,位置成为了影响流量的第一因素

如果商家可以获取不同位置的消费者需求数据,并基于这些数据提炼不同地区的用户需求画像,那么这些基于地理位置的数据,将是商家精准营销与合理备货的重要决策依据。

如果合理利用,地理位置数据最大的受益方是地产商。通过不同地理位置下用户画像的勾勒,地产商可以预测未来不同地区的居住地产和商业地产的价格趋势,在商业策略上最大程度管理资金风险。

时间

《圣经》中所罗门说:“已有之事后必再有,已行之事后必再行,日光之下并无新事。”

世界中99%的事情都在重复,只不过是以不同的形式重复。

因此,预测未来的最佳方式往往是充分还原历史的所有细节

时间,是还原历史的最佳方式之一。任何事物在时间维度下留下的影子,都是预测未来最有价值的材料。

时间创造数据源。

许多数据源,经过时间维度的切割、加工和变换,可以衍生出许多新的数据源

如果忽略时间,我们只能看到一个点。而如果观察一个数据源在不同时间轴上的轨迹,我们便可以抽取这个数据源在不同时间片断上的变化趋势。每一个变化趋势都是一个新的数据源,而且有可能是更有价值的数据源。

时间维度这种让数据源更加丰富的能力,往往能让算法的预测能力大幅度增强。

在期货产品的算法交易中,最重要的数据就是在不同的时间点中计算不同曲线之间的变化趋势交叉关系,从而在时间轴的片断中间计算出风险与收益的最佳平衡点

实际上,量化交易中所有算法可以识别出的规矩,都是以时间为基础维度的。任何金融规律都是片断的,任何普适的真理都无法应用于金融市场。并且,利润越高的金融市场这个规律就越发明显。

天气

天气数据是经常被忽略的一个数据源,因为这个数据看似随手可得,而且人们常常误认为天气数据只能用于天气预报。

实际上,天气数据在零售、电商、农业、出行等领域有着巨大的商业价值

在零售和电商领域,天气变化趋势可以提前预判许多季节性品类的供应需求:每到春夏换季的时间段,“船袜”这类关键字的搜索量就会大幅度增加;每到秋冬换季的时间段,“欧洲站”这类关键字的搜索量也会大幅度增加。

如果我们合理利用天气数据,便可以缩小换季的时间窗口。提前备货和有针对性的营销都是商家的刚性需求。

在农业领域,农产品的产量与天气变化是息息相关的。天气数据、地理数据和农业数据的有效结合,可以用于预测不同农产品的产量与需求,在农业市场预估和期货金融都有巨大的价值。

在出行领域,不同天气也会严重影响人们的出行需求。下雨天,人们打车往往非常困难,并且对于打车价格极不敏感。基于天气数据预估不同位置的出行需求,可以帮助出租车和快车实现个性化定价,同时也满足了“特殊天气出行”这一刚需。

天气影响着消费者的衣食住行。如果我们可以提前捕获天气变化,并与其他领域的场景数据结合,对于提前判断消费者在不同场景的需求有着巨大的商业价值。

问答

在一些特定的场景中,许多高质量的用户数据不是抓取来的,而是从用户那里直接问来的。

大部分互联网产品很难直接使用问卷,因为互联网产品更多是满足用户某一方面的通俗需求,用户往往没有动力去提供数据。因此,在大数据互联网数据挖掘项目中,大部分模型都是基于用户行为去推测用户偏好。

在信贷业务中,提供贷款的资金方因为可以提供资金,因此可以要求贷款客户提供核心数据。然而,在许多金融机构的小微企业贷款业务中,核心数据其实是靠信贷员线下收集来的。对于小微企业,线上数据严重缺失,并且也有许多虚假成分。

在桃树科技所服务的银行的小微信贷业务中,“实地调查、眼见为实”往往是他们信贷风控的核心。

许多小微企业非常擅长造出漂亮的交易流水数据,所以信贷员实地收集到的关键数据,往往更能反映企业的实际情况。

例如,信贷员会在不提取通知的情况下实地抽查他们的货物库存、柜台现金、企业负责人口袋中现金、企业负责人家庭意见,甚至进行许多心理测试,这些都是必须收集的数据。

信用风控本质上就是对人信用的评估,也就是对人人品的评估,其中需要大量心理学相关数据。当这些线下数据收集齐全,算法的价值是从中评估哪些数据是核心数据,这些数据可以帮助信贷员在收集数据时提高效率,有的放矢了解贷款方的实际情况。

对于教育领域交友领域,用户同样有足够的动机去主动提供数据。基于这些主动提供的问卷数据进行建模学习,效果往往好于行为数据分析的结果。并且,在用户不断提供数据的过程中,算法可以持续评估什么是关键数据,从而优化用户下一次输入数据的范围

曹操说,兵不在多,在精。

同样的,数据是资源,更多的资源不一定意味着更高的产出。数据不一定越多越好,但是对于有限的数据,用得巧妙,便可以创造巨大的价值。

许多不为人知却价值连城的数据源,能在多个场景创造意想不到的价值。这些数据源与其他数据的混搭,更是可以让原始数据衍生为价值无量的新数据。

正是机器学习技术的进展,让这些原本不起眼的数据被创新应用。也正是在数据应用实践中,更多数据将被卓越的数据科学家点石成金。

来源:桃树科技 授权发布

发表评论

评论已关闭。

相关文章