数极客首页

作为一个合格的“增长黑客”,你还得重视外部数据的分析!

往常

互联网上关于“增长黑客”的概念很火,它那“四两拨千斤”、“小投入大收益”的神奇法力令无数互联网从业者为之入迷
。普通
来说,“增长黑客”主要依赖于企业的内部数据(如企业自身

具有
的销售数据、用户数据、页面阅读
数据等),以此为依据

中止

数据剖析

和推行
战略
拟定。但是,假定

遇到如下几种状况

,“增长黑客”就捉襟见肘了:

  • 假定

    一家初创公司,自己

    刚起步,自身

    并没有还积聚
    数据,怎样
    破?

  • 就算有数据,但自己

    具有
    的数据无论在“质”和“量”上都很差,正所谓“garbage in ,garbage out”,这样的数据再怎样
    剖析

    和挖掘

    ,也难以得到可作为决策依据

    的数据洞察。。。

  • 能看到数据量
    上的变化趋向
    ,却无法精准的得知

    数值变动的真正缘由
    ,比如

    ,近期APP上的生动

    度降落
    不少,从内部数据上,你只能看到数据量
    上的减少,但关于
    用户生动

    度降落
    的真实动因却无法精确

    判定

    ,只能拍脑袋或者应用
    过时的阅历

    ,无法让相关人信服。

由此,笔者引出了“外部数据”这一概念,特别
是“Open Data”这片“数据蓝海”,“他山之石,能够

攻玉”,从海量的外部数据中获取能够

对自身

业务起到指导作用和自创
意义的insight,借助外部环境数据来优化自己

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!下图是本文的行文脉络:

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!在谈及外部数据的重要性之前,让我们先简单的看一看数据剖析

的四种类

型。

1 四种常见的数据剖析

类型数据剖析

关于
决策的价值上下
处置
剖析

复杂水平

,可将数据剖析

归为如下图所示的4种范式:

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!从上图能够

看到,越远离坐标原点,沿坐标轴正向延伸,价值度就越高,剖析

处置
的难度也就越大。关于
数据剖析

师而言,“描画

型剖析

”、“诊断型剖析

”和“预测型剖析

”最为常见,而“规范

型剖析

”触及
比较

深邃
的数据挖掘

和机器学习学问
,不是我们接下来讨论的重点。

1.1 描画

数据剖析

描画

型剖析

是用来概括、表述事物整体状况

以及事物间关联、类属关系的统计办法

,是上述四类中最为常见的数据剖析

类型。经过
统计处置
能够

简约
地用几个统计值来表示一组数据地集中性(如平均

值、中位数和众数等)和离散型(反映数据的动摇
性大小,如方差、规范

差等)。

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!

1.2 诊断型数据剖析

在描画

型剖析

的基础

上,数据剖析

师需求
进一步的钻取和深化
,细分到特定的时间维度和空间维度,依据

数据的浅层表现和自身

的历史累积阅历

来判别
现象/问题呈现
的缘由

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!

1.3 预测型数据剖析

预测型数据剖析

应用
各种高级统计学技术,包括应用
预测模型,机器学习,数据挖掘

等技术来剖析

当前和历史的数据,从而对未来

或其他不肯定
的事情
中止

预测。

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!

1.4 规范

数据剖析

最具价值和处置
复杂度的当属规范

型剖析

。规范

型剖析

经过
“曾经
发作
什么”、“为什么发作
”和“什么将发作
”,也就是综合运用上述提及的描画

型剖析

、诊断型剖析

和预测型剖析

,对潜在用户中止

商品/效劳
举荐

和决策支持。

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!

2? 对外部数据中的剖析

很重要经过上面对四种数据剖析

类型的描画

,笔者以为
现有的基于企业内部数据数据剖析

理论
存在如下几类特征:

  • 大多数的数据剖析

    仅停留在描画

    数据剖析

    上,未触及数据深层次的规律,没有最大限度的挖掘

    数据的潜在价值

  • 数据剖析

    的对象以结构

    化的数值型数据为主,而对非结构

    化数据,特别
    是文本类型的数据剖析

    理论
    则较少;

  • 对内部数据高度注重
    ,如用户增长数据,销售数据,以及产品相关指标数据等,但没有和外部数据中止

    关联,招致
    剖析

    的结果片面、孤立和失真,起不到问题诊断和决策支撑作用。

由此,我们必需
对企业之外的外部数据惹起
注重
,特别
是外部数据中的非结构

化文本数据。关于
文本数据的重要性,笔者已在之前的文章中有过细致
的论述

,详情请参看《数据运营|数据剖析

中,文本剖析

远比数值型剖析

重要!(上)》。与此同时,非结构

化的文本数据普遍
存在于社会化媒体之中,关于社会化媒体的相关引见
,请参看《干货|怎样
应用
Social Listening从社会化媒体中“提炼”有价值的信息?》。

3?外部数据的几种常见类型外部数据是互联网时期
的产物,随着移动

互联时期
的兴起,外部数据的增长呈现井喷的趋向
。各个范畴
的外部数据从不同角度描写
了移动

互联时期
的商业社会,综合这些外部数据,才干
俯瞰到一个“全息式”的互联网幅员
。按互联网行业和范畴
的不同,外部数据包括且不限于:

4?外部数据的获取/采集随着互联网时期
关于
Open Data(开放数据)”或“Data Sharing(共享数据)”的日益倡导,很多互联网巨头(部分

)开放了它们所积聚
的外部数据;再者一些能够

抓取网络数据的第三方应用和编程工具不时
呈现
,使得我们能够

以免费或付费的方式取得

大量外部数据(在取得

对方允许和触及
商业目的的状况

下),最终的方式
包括未加工的原始数据、系统化的数据产品和定制化的数据效劳
。以下是一些常见的外部数据剖析

和采集工具:

4.1 指数查询

  • 百度指数
  • 微指数

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!

  • 优酷指数
  • 谷歌趋向

4.2 爬虫工具

  • 火车头
  • Data Scraping

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!

  • 八爪鱼

4.3 社会化媒体监测与剖析

平台

  • 新浪微舆情

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!关于上述工具的运用
引见
,请参考笔者之前的文章《万字干货|10款数据剖析

“工具”,助你成为新媒体运营范畴
的“增长黑客》、《不懂数理和编程,怎样
运用免费的大数据工具取得

行业洞察?》。

5 外部数据剖析

的应用场景最先对外部数据高度注重
的先行者其实是政府机构,它们应用
大数据舆情系统中止

网络舆情的监测,但随着大数据时期
的向前推进,外部数据的应用场景也越来越多,包括且不限如下方面:

  • 舆情监测
  • 企业口碑和客户称心

    度追踪

  • 企业竞争情报剖析

  • 品牌宣传、广告投放及危机公关
  • 市场机遇

    挖掘

    、产品技术开发创意挖掘

  • 行业趋向
    剖析

接下来,笔者将以知名互联网社区—“人人都是产品经理”上近6年的文章数据作为实例,中止

“360度无侧漏式”的数据剖析

,来“示范”下怎样
对外部数据中止

挖掘

,从中最大限度的“榨取”关于互联网产品、运营方面的insight。

6 外部数据剖析

实操—以“人人都是产品经理”上的文章数据剖析

为例

“人人都是产品经理”社区创建

于2010年,是一个产品经理学习、交流、分享的社会化媒体平台,每天都有更新关于互联网产品、设计、运营等的资讯和文章,由此吸聚了大量的具有互联网背景的读者。据官方宣称

,截至2015年,社区共具有
300万忠实粉丝。

因而

,“人人都是产品经理”在互联网在互联网界具有普遍
的影响力,是国内互联网展开

的一面镜子,剖析

它上面的文章数据能够

抵达

见微知著、管中窥豹的效果,从中能够

发掘

互联网界的历史变化
和展开

现状,进而瞻望

互联网行业“将发未发”的热点和行进
方向。
在笔者下面的“数据发现之旅”中,会带着3个目的,主要是:

  • 经过
    该社区的资讯文章中,发掘

    国内互联网展开

    的一些特征

  • 发掘

    互联网某些栏目下的热点及其变动趋向

  • 给笔者的内容创作予以写作作风
    定位和题材选取方面的指导

以下是笔者抓取的数据的原始形态,抓取了“标题”、“时间”、“正文”、“阅读量”、“评论量”、“珍藏

量”和“作者”这7个维度的数据,抓取时间区间是2012.05.17~2017.07.31,文章数据共计33,412条。

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!然后,笔者对数据中止

了清洗,主要是“阅读量”,将“k(1000)“、“万(10000)”、“m(1000000)”变成了相应的数字,便于后续的数值计算和排序。同时,新增3个维度,即文章所属的栏目“类别”、“正文字数”和“标题字数”。

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!作为一个合格的“增长黑客”,你还得注重外部数据的剖析!

6.1全局纵览

6.1.1 各栏目下的文章数据量
散布

状况

第一
,先对各个栏目下的文章数据量
中止

基础

性的描画

性剖析

,看看10个栏目类别下的文章数据量
散布

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!作为一个合格的“增长黑客”,你还得注重外部数据的剖析!从上面的条状图和环形图能够

看出,“业界动态”这一栏目下的文章数据量
最多,为10,,452篇,占到了文章篇数总量的31.3%,第二
是产品设计和产品运营,分别占到了总数的19.5%和16.87%,反倒是“产品经理”下的文章数据量
不多。接下来,笔者统计了这10各栏目在过去的6年中的数质变
化状况

,如下面的热力图所示:

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!上面的热力图中,色块越深,对应的数值就越大,越浅则数值愈小。其中,互联网的“业界动态”不时

是文章发布数据量
最多的栏目。而“产品经理”的发文数据量
一路飙升(当然2017年还没过完),间接的可知该职位的热度(关注和写作偏好)蹭蹭的往上窜,成为“改动
世界”、拿着高薪的产品经理,是无数互联网从业人员梦寐以求的工作。与此相似

的是“产品运营”栏目,发文数据量
也在稳步上升。另外,“产品设计”方面的文章主要集中在2012年,能够

看出以“用户体验”、“UI设计”、“信息架构”和“需求规划”为主要活动的产品设计在2012年蓬勃展开

,产生了大量基于理论
阅历

的干货文章。

6.1.2 阅读数据剖析

往常

,笔者从“阅读量”、“点赞量”、“珍藏

量”、“正文字数”和“标题字数”这些能反映读者阅读偏好的数据着手,中止

由浅入深的挖掘

,从中发现阅读数据中的洞察。在统计剖析

之前,先去掉若干有缺失值的数据,此时文本数据总量为33,394。

(1)文章数据的描画

性剖析

先对一切
文章的各个维度中止

描画

性统计剖析

,取得

这些数据的“初の印象”。

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!上面的数据过多,为俭省
篇幅,笔者仅摘取部分

数据中止

解读:

  • 从上表中,笔者发现,单篇文章阅读量的最大值是2,100,000!阅读数高得惊人!在后面的截图中,小同伴
    们能够

    知晓细致

    是哪一篇文章如此之高的阅读热度。

  • 读者的评论热情不高,绝大部分

    的文章没有评论,这能够

    从“平均

    值”、“中位数”和“规范

    差”这3项指标中看出。

  • 绝大部分

    的文章字数不超越
    3000,篇幅短小精悍,当然大多数文章都有配图,写得太长,读者懒得看。

  • 绝大部分

    的标题字数不超越
    20字,太短说不分明

    ,太长看着招人烦。。。

(2)文章聚类剖析

在该部分

,笔者选取 “阅读量”、“珍藏

量”、“评论量”、“标题字数”这4个维度作为此次聚类剖析

的特征(Feature),它们共同结构

了一个四维空间,每一篇文章因其在这4个维度上的数值不同,在四维空间中构成
一个个的点。以下是由DBSCAN自动聚类构成
的图像,因4维空间难以在理想
中呈现,故以2维的方式
中止

展示

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!从上图能够

看出,此次聚类中,有少数的异常点,由上面的描画

型剖析

可知,阅读量极大的那几篇文章的“嫌疑”最大,往常

在源数据中“揪出”它们,游街示众,然后再“除掉”。

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!去除掉上述异常点之后的聚类图谱:

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!从上图中能够

看出,固然
由于
维渡过
高,不同类别簇群存在重合现象,但不同的颜色显然
的将文章类别中止

了辨别

,依照

“阅读量”、“珍藏

量”、“评论量”、“标题字数”这4个维度中止

的DBSCAN聚类能够

分为5个类别。

(3) 阅读量与正文字数、标题字数之间的关联剖析

接着,笔者分别对“阅读量”与“标题字数”、“正文字数”做了散点图剖析

,以期判别
它们之间能否
存在相关关系。

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!从上图来看,阅读量和标题字数之间并没有显然
线性相关性,标题字数及其对应数据量
的散点散布

,近似构成
了一条左偏态的正态曲线,从图像上印证了上面的描画

性剖析

,而且更新了我们的认知:在10~30这个“标题字数”区间的文章数据量
最多,而标题字数过多一定
是好事。

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!从上图能够

看出,从1000字开端
,阅读量和正文字数在大致
上呈负相关关系,即文章字数越多,阅读量越小。由此看来,大家都比较

喜欢短平快的“快餐式”阅读,篇幅太长的文章看起来太磨人。。。

6.1.3 抢手
文章特征剖析

一篇文章的“珍藏

量”能在一定水平

上反映读者对该文章的价值度的认可,较高的珍藏

量能代表该文章的质量属于上乘。而从一定数据量
的高珍藏

量文章中,我们又能间接的从中发掘

出读者的阅读偏好,进而界定读者群体的某些特征。在这部分

,笔者选择

出珍藏

量大于1,000的文章,各栏目合计下来,不多不少,刚好60篇。以下是它们在各栏目下的数据量
散布

状况

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!从上表中,笔者发现如下信息:

  • “产品经理”栏目下珍藏

    量过1,000的文章数据量
    最多,占到半数;

  • “剖析

    评测”下的文章数据量
    不多,但读者互动最多(平均

    评论量为90);

  • “剖析

    评测”、“交互体验”、“业界动态”、“原型设计”入围的文章数据量
    不多,但它们的平均

    阅读量较高

以上3点仅是从数值型数据上取得

的认知,但是这些抢手
文章到底有哪些特征,我们不得而知,由此,笔者统计了这些抢手
文章的标题中的高频词,并将其制成关键词云

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!从上面的高频词,“Axure”、“干货”、“工具”、“新人”、“7天”、“速成”等高频词能够

间接的推测

出,这些文章的主要面向初学者(依照

心理学上的“投射原理”,读者其实也大都是初学者),以干货类、工具类和办法

论为主题,并透显露
浓厚

的“胜利

学气息”(如“速成”、“7天”、“必学”等词),具有这类标题特征的文章,可谓
“眼球收割机”,初学者兼并
小白喜闻乐见,最是喜欢~

6.1.4 文本中一线~五线城市提及次数的天文
散布

在该部分

,笔者先列出了一个国内一、二、三、四、五线城市的城市名录,然后在经过火
词处置
的333,94篇文本数据中统计这些城市的提及次数(不包含简称和别称),最终
制成一张反映城市提及次数的天文
散布

地图,进而间接的了解

各个城市互联网的展开

状况

(普通
城市的提及跟互联网产业、产品和职位信息挂钩,能在一定水平

上反映该城市互联网行业的展开

态势)。经处置
,制成的数据地图如下:

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!上图反映的结果比较

契合
常识,北上深广杭这些一线城市/互联网重镇的提及次数最多。第二
是成都、天津、重庆、苏州和青岛这些二线城市,第三
是哈尔滨、大连。总结起来的一句废话就是—互联网兴隆

的城市主要集中在东南沿海。。。上面的数据剖析

大多数是基于数值型数据的描画

性剖析

,接下来,笔者将应用
其中的文本数据做深化
的文本挖掘

6.2 针对“产品运营&数据剖析

”栏目的专项文本挖掘

由于
笔者关注的范畴
主要是数据剖析

和产品运营,平常
写的文章也大都集中在这两块,所以笔者把这两个板块的数据单独拎出来,从文本挖掘

角度,做一系列由浅入深的数据剖析

6.2.1 高频词汇TOP200第一
是文本挖掘

中最常规的高频词剖析

,笔者从中获取了TOP200词汇。

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!能够

看到,大部分

是跟“运营”息息相关的词汇,比如

“用户”、“运营”、“内容”、“APP”、“营销”、“微信”等词汇。单独看其中的高频词TOP30,能够

发现,这些词大部分

跟新媒体运营(“内容”、“微信”、“微博”、“文章”等)、用户(“用户”、“粉丝”、“需求”、“社群”、“客户”、“消费者”等)有关系。

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!将这TOP200高频词制成关键词云,直观的看到其中重要的信息。

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!

6.2.2 BIcluster文本聚类剖析

刚才

笔者提到了基于关键词归结
主题的做法,在上面的高频词中,这种主题特征不甚显然
,因而

笔者采用更强有力的BIcluster文本聚类剖析

,从“数据剖析

&产品运营”的数千篇文章中“析出”若干“子主题”,并中止

“发布年份”&“主题构成”之间的关联剖析

。基于谱分别

聚类算法(Spectral Co-clusteringalgorithm)的文档聚类,这部分

的原理触及
到艰深的数学和算法学问
,可能会惹起
小同伴
们的阅读不适感,假定

是这样,请快速跳过,直接看后面的操作和结果。先将待剖析

的文本经TF-IDF向量化构成了词频矩阵,然后运用
Dhillon的谱分别

聚类算法(Spectral Co-clusteringalgorithm)中止

双聚类(BIclusters)。所得到的“文档-词汇”双聚类(BIclusters)会把某些文档子集中的常用词集聚

集在一同
,由若干个关键词构成某个主题。正式剖析

之前,先对保管
在Excel中的文本数据做一定的预处置
,运用
“乾坤大挪移”,将Excel中的文本数据按年份一条条的归到不同的文件夹下面,细致

步骤如下图所示:

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!做好预处置
后,中止

正式的BIcluster文本聚类,结果如下:

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!上面的剖析

结果中,BIcluster1的话题辨别

度不显然
,且仅包含2个文档和16个关键词,所以扫除
掉这个主题,仅留下其他5个主题,扫除
噪声,从这些子话题中的主要关键词来归结
其要旨。为了看得更分明

,笔者将这些数据整理成二维表格的方式

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!从上表能够

看出,“数据剖析

&产品运营”下的子话题中,触及
“新媒体运营”的内容最多,占到文档总量的35.62%,第二
是“APP运营”和“智能硬件”方面的话题,分别占到文档总量的23.72%和19.6%。而“数据剖析

”话题下的文档数最少。将子话题和年份中止

交叉

剖析

,能够

从中了解

到各个子话题在各年份的信息散布

量,从某种意义上讲,也就是话题热度。

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!从上表能够

看到,“智能硬件”的子话题在2012和2013年的热度最高,而“APP运营”和“数据剖析

”在2016和2017年开端
火了起来,而“新媒体运营”在近3年也是风光无限。而单独从2016年来看,除了“智能硬件”方面的话题不火外,其他三个话题均有较高的热度,抵达

了近5年来热度峰值,看来2016年是个特殊的年份。总体上,除了“智能硬件”这个子话题外,其他3个子话题热度都呈现出不时
上升的趋向
,当然,笔者假定
2017年的4个月过完的时分
还是如此。

6.2.3 基于“数据剖析

&产品运营”语境下的关联词剖析

接下来中止

的是基于Word Embedding的Word2vec词向量剖析

,将正文分词文本直接中止

词向量模型锻炼
,然后用来中止

关联词剖析

。Word2vec是Word Embedding(词嵌入)中的一种,是将文本中止

词向量处置
,将这些词汇映射到向量空间,变成一个个词向量(WordVector),以使这些词汇在便于被计算机辨认

和剖析

的同时,还具有语义上的关联性,而不只
仅是基于词汇之间的共现关系。相似

的例子能够

参看笔者之前的文章《用数据全方位解读<欢乐颂2>》、《以<大秦帝国之崛起>为例,来谈大数据舆情剖析

和文本挖掘

》。由此,经过
Word2vec,我们能够

查找到在“数据剖析

&产品运营”语境下的各个词汇的关联词。先看看笔者最关怀

的“数据剖析

”,在“数据剖析

&产品运营”语境下有哪些词与之关联度最高,这里采用的method是’predict_output_word’,也就是把“数据剖析

”单个词当做语境,预测在“数据剖析

”语境下的关联词。(Report the probaBIlity distribution of the center word given the context words as input to the trainedmodel.)

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!在这种状况

下,“数据剖析

”与自身

的关联度不是1了,由于
它可能在一段话里呈现
两次。后面关联度较高的词汇依次是“统计剖析

”、“数据挖掘

”、“BI”、“Excel”等,从其中的几个数据工具(数极客和友盟等)来看,厂家的品宣软文做的还是蛮好的。再来看看“数据挖掘

”+“运营”下的关联词有哪些,这次采用的method是’most_similar’,结果如下:

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!结果显现
,这2个词的组合得到的关联词,除了“数据剖析

”外,还有“精密

化”、“BI”、“统计剖析

”、“(用户)画像”、“数据模型”、“指标体系”、“产品谋划

”等关键词,它们是数据运营中触及
较多的概念。下面是“pm”和“运营”的共同关联词,它们能较好的阐明

运营和产品之间的存在的某些“公共关系”。

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!原本

,这两个职位由于跟进流程多,触及
面广,需求
干各种“杂活”,因而

很多产品或运营埋怨

自己

就是 “打杂”的。近一段时间,互联网界某些专家适时造出“全栈产品”和“全栈运营”这两个新概念,以为
必需
在这两个岗位上控制
更多的“斜杠”技艺
,熟谙相关范畴
的各个“工种”,最好知晓

各个流程。要做好这两个“非技术”的岗位,很多方面不只
要“略懂”,还要扮演“多面手”的角色,比如

“技术开发”、“产品谋划

”等,如此才干
在理论

工作中“独当一面”。接下来,笔者从当选


出出90个跟“数据剖析

”具有较高关联度的词汇,看哪些词汇在该语境下中提及次数最多,以及这些词之间的共现关系(Co-occurrence Relation),经过
词汇链接关系的多寡,找到重要性水平

最高的词汇。

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!从字体大小来看, “数据”、“数据剖析

”、“运营”、“数据挖掘

”“数据库”、“预测”等词链接的词汇最多,它们的重要性水平

在这90个词汇中的重要性水平

最高。从颜色上来看,这90个词依据

“关系亲疏(共现关系)”汇集

为5个社群(Community),最为突出的是3个社群,分别是:

  • 橙色系的“SPSS”和“SAS”,数据剖析

    工具类;

  • 紫色系的“数据”、“数据剖析

    ”、“数据挖掘

    ”等,数据剖析

    相关重要的概念;

  • 绿色系的“营销”、“社会化媒体”、“监测”等,品牌营销类。

其中,“社会化媒体”与“营销”之间的线条最为显然
,代表它们之间有很强的关联度—由于
社会化媒体正式营销活动的载体,营销活动必需
在各类社会化媒体(微信、微博、头条号等)实施

6.2.4 Lexical dispersion plot(词汇分散图)接下来,笔者想了解

“产品运营&数据剖析

”栏目中的某些词在2012.05~2017.07之间的数据量
散布

状况

,以及它们呈现
的位置信息(the location of a word in the text),这时能够

应用
Lexicaldispersion plot(词汇分散图)中止

剖析

,它能够

提示

某个词汇在一段文本中的散布

状况

(Producea plot showing the distribution of the words through the text)。笔者先将待剖析

的文本按时间次第
中止

排列,分词后再中止

Lexicaldispersion plot剖析

。因而

,文本字数的累积增长方向与时间正向推移的方向分歧
。图中纵轴表示词汇,横轴是文本字数,是累加的;黑色竖线表示该词汇在文本中被提及一次,对应横轴能看到它所处的位置信息,空白则表示无提及。

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!从上图能够

看出,在近4,500,000词汇量的文本中,“运营”、“微博”和“电商”在近6年里的提及次数极高,中间的间隙较少,贯串
不时

,它们是作家谈论

最多的三个词汇/话题。像“新媒体”、“微信公众号”、“用户运营”、“社群”等词汇,在头两年的提及热度不高,但青出于蓝

,提及量呈现逐步

上涨的趋向
。而“BI”、“CRM”在近六年内呈零星散布

,提及量较少,在“产品运营&数据剖析

”栏目中属于冷门话题。

6.2.5 应用
DTM模型(Dynamic Topic Models?)剖析

主题下的热点变化
上面的剖析

是针对某个词汇的时间动态剖析

,这里笔者要剖析

的是某个话题随时间的变化
状况

(This implements topics that change over time)。笔者运用的模型是DTM模型 (Dynamic Topic Models?),它是“概率主题模型”家族的一员,用于对语料库中主题演化
中止

建模。它基于这样的假定

包含
时间要素
的主题,固然

它包含的关键词会随着时间的变化而产生相应的变化,但它如构成要素不时
更新换代的“忒修斯之船(The Ship of Theseus)”普通
,即便

同一主题下的开端和末尾中的主题词没有一个是相同的,但还是原先的主题,保管

有相同的语境。(By having a time-basedelement to topics, context is preserved while key-words may change.)

第一
,从“产品运营&数据剖析

”中“解析”出如下6个子话题,它们是“运营”、“商业方式

”、“流量运营&数据剖析

”、“品牌营销&数据剖析

”、“电商运营”和“内容运营”,如下表所示:

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!笔者对Topic2,也就是“流量运营&数据剖析

”在2012.05~2017.07间的话题变化
状况

感兴味
,于是将这6年间呈现
的主题词重新整合,制成下面的热力图:

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!上图中纵轴是主题词,横轴是年份,颜色由浅入深代表数值的由小到大。从中能够

显然
的看出,“流量运营&数据剖析

”子话题下的“数据”、“数据剖析

”、“运营”和“业务”在该话题中不时

处于“中心
位置
”,坚持
较高且稳定的word_prob值。而“渠道”、“游戏”、“互金”在近3年的word_prob值有了较大的提升,阐明

社区的作者在近期比较

关注这3个主题词所代表的范畴
,间接标明
它们在互联网中的话题热度呈现上升趋向

6.2.6 应用
ATM模型(Author-TopicModel)剖析

作家写作主题散布

在这个版块,笔者想了解

“人人都是产品经理”上作家的写作主题,剖析

某些牛X作家喜欢写哪方面的文章(比如

“产品运营”、“数据剖析

”、“新媒体运营”等)写作了啥,主题相似

度的作者有哪些。为此,笔者采用了ATM模型中止

剖析

,留意
,这不是自动取款机的缩写,而是author-topic model:

ATM模型(author-topic model)也是“概率主题模型”家族的一员,是LDA主题模型(Latent Dirichlet Allocation )的拓展,它能对某个语料库中作者的写作主题中止

剖析

,找出某个作家的写作主题倾向,以及找到具有同样写作倾向的作家,它是一种新颖的主题探求

方式。

第一
,先从文本中“析出”若干主题,经过探求

,10个主题的辨别

度正好。依据

各个主题下的主题词特征,笔者将这10个主题归结
为 :“行业动态”、“电商运营”、“商业方式

”、“产品运营”、“社交媒体”、“互金产品”、“数据运营”、“用户研讨
”、“产品设计”和“新媒体运营”。

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!同时,在数据处置
的过程中,模型树立
了作者(author)、主题(topic)及文档(document)之间的映射关联关系,以dict的方式
保管
数据。

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!模型锻炼
终了
,先看看笔者自己

的写作主题散布

吧。值得留意
的是,这里的文档数据经过甄选,并不是全部的文档数据,因而

数据量
会少于网站上所看到的文章数。

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!上面的“Docs”中的元素是文章对应的文档ID编号依照

时间次第
排列的,“Topics”中的元素有两列,一列代表主题,一列代表主题的权严重
小。很显然
,笔者的写作主题主要集中在“数据运营”、“新媒体运营”和“用户研讨
”这3个主题上,有些直接从标题即可看出,有些“潜藏”在文章的正文论述

之中。

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!再看看运营大神韩叙的写作主题散布

,很显然
,他偏重

于写产品运营方面的干货文章,而且写作主题很明白

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!再看看另一位专栏作家类类的写作主题散布

,他倾向于写产品运营、用户研讨
和社交媒体方面的文章,看过他文章的人都知道

,他特别
擅长基于社区的用户运营。

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!再看看另一位运营大神—张亮,也就是“互联网运营第一书”《从零开端
做运营》的作者张亮,他的写作主题跟类类几近分歧
,也是产品运营、用户研讨
和社交媒体方面的干货分享。

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!接下来,依据

上述作者的写作主题散布

,笔者找出与他们写作相似

度最高的作家,为坚持
精确

度,笔者有一个限制条件—发文数据量
不小于3篇。结果以表格的方式
展示

,主要的维度有“作者(Author)”、“相似

度得分(Score)”和“文档数据量
(Size)”。以下是“韩叙”“类类有话说”和“张亮-leo”的相似

作者名单TOP10,限于篇幅,笔者就不做过多剖析

了。

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!

 

6.2.7 LSI相似

标题索引最终
,笔者想经过
文章标题之间的语义相似

关系来找到相同主题的文章,而这种语义相关性不只
仅是字面上的(不包含相同的词汇,但其中的词含义相近)。利过LSI(Latent Semantic Index,潜在语义索引)就能够

做到这一点。经过
词袋模型(bag-of-words)”将语句映射到特定的Vector Space Model (VSM)中,比较

语句向量化后的余弦夹角值(介于0-1之间),值越大,就代表相似

度越高。细致
的原理推导,小同伴
们能够

自行Google脑补。从标题中找出主题相似

的文章,检索感兴味
的内容,不只
仅是经过
关键词检索,潜在语义剖析

。在这里,笔者先后对如下三篇文章中止

LSI语义索引:

  • 数据剖析

    遭遇心理动力学:用户深层次的情感需求浮出水面(万字长文,附实例剖析

  • 万字干货|10款数据剖析

    “工具”,助你成为新媒体运营范畴
    的“增长黑客”

  • 数据运营实操 | 怎样
    用聚类剖析

    中止

    企业公众号的内容优化

结果显现
如下:

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!

作为一个合格的“增长黑客”,你还得注重外部数据的剖析!从上面的索引结果能够

看到,搜索
到的语句和原语句之间即便

没有包含相同的词汇,但语义上是相关的,分别从属

于4“用户研讨
”、“运营实操依据

”和“内容运营”这三个话题。笔者经过
这种文本相似

度索引,就能够

找到自己

感兴味
的内容,中止

更进一步的文本挖掘

结语限于篇幅,上述许多模型的用处

/运用
场景
,笔者并未展开详说,比如

Lexical Dispersion Plot、BIcluster文本聚类和DTM模型能够

预测词汇和主题的热度,从而为写作选材热点追踪提供参考;而LSI相似

文本索引和ATM模型能够

在内容创作中中止

竞品剖析

,找到与笔者写作主题相近的作家和内容中止

针对性的剖析

,知己知彼,做好自己

的写作作风
定位。

拿笔者的剖析

理论
为例,在“数据剖析

”栏目中,采用上述剖析

伎俩

,笔者发现相关文章大都是理论型和想象
型的论述

,短少

真实的数据剖析

实例支撑,真正投入到理论

工作中的效果也未可知;同时,很多是常规的、基础

性的数值型剖析

,引见
的工具则是Excel、SQL、SPSS,难以满足当今大数据背景下的数据剖析

理论
。因而

,笔者的写作作风
倾向于“少许理论+实操”,尽量少扯“看起来对、看过就忘”的理论,在数据剖析

工具和办法

的运用
上尽量做到多样化,实例剖析

不为得出细致

的结论,重在开辟

读者的数据剖析

思绪
,授人以鱼。

最终
,透过上面的外部数据剖析

实例,笔者想阐明

如下3点:

  • 要厘清不同数据类型的特征,如本例中的数值型数据、文本型数据以及从中抽取的关系型数据,对其采用合适

    的剖析

    思绪
    和挖掘

    办法

  • 数据剖析

    的办法

    要尽可能的多样化,如本例中采用了多种剖析

    办法

    和模型,如交叉

    剖析

    、高频词剖析

    、关键信息抽取、词汇分散图剖析

    和ATM模型等;

  • 在剖析

    层次上,以业务逻辑为轴线,由浅入深,由简入繁,由表及里,既有描画

    型的统计剖析

    ,也有诊断型的数据挖掘

    ,还有基于演化
    规律(如动态主题模型)的预测型剖析

数据来源及参考资料

1.数据来源:人人都是产品经理,http://www.woshipm.com2.Kemal Eren,An introduction to?BIclustering, http://www.kemaleren.com/an-introduction-to-BIclustering.html3.Ofir Pele and MichaelWerman,?A linear time histogram metric for improved SIFT matching,2008.4.Ma Kusner et al.?From Embeddings To Document Distances,2015.5.Michal Rosen-Zvi, Thomas Griffiths et al. The Author-Topic Modelfor Authors and Documents6.David Hall et al.?Studying the Historyof Ideas Using Topic Models7. D.Blei and J. Lafferty. Dynamic topicmodels. In Proceedings of the 23rd International Conference on MachineLearning, 2006.

来源:运营喵是怎样
样炼成的

 

发表评论

评论已关闭。

相关文章