数极客首页

教你如何获取IP地址侦测用户来源可视化分析

假定
一家商业网站开发了软件产品,他们希望知道

都是来自哪里的用户下载或更新我们的软件,并中止

可视化剖析

需求
处置

的问题是:

  1. 能否
    有一个IP地址库,能够

    表征一个geoIP地址的细致

    位置(至少到国度
    或具有效劳
    器ISP位置)

  2. Weblog记载
    了用户下载或更新软件的IP地址
  3. 能够

    将下载用户的IP地址匹配到geoIP地址数据库

  4. 在地图上可视化呈现用户来源

下面我们经过
案例来阐明

完成
上述想法的软件操作和挖掘

算法。

第一
我们了解

到有一家网站提供了IP地址的开源数据库(收费数据库更精密

和更新更快) Hp://www.maxmind.com

GeoIP2 Precision Insights效劳
提供IP地址所属地
点Maxmind所控制
的最精确

信息,能够

将其精确

定位到邮政编码层面。它包括天文
定位数据的置信因数,描画

ISP/机构,并显现
某个IP背后的用户类型。

GeoIP2 Precision Insights 往常

能够

提供人均收入(美圆
)以及每平方公里的人口数据量
(仅限美国)。借助平均

收入,精调广告定向和优惠券发放;参与

人口密度数据,作为渠道剖析

和评价
市场需求的一项要素

从上面描画

我们能够

看到几点应用:

  1. 一个IP地址库具有什么信息
  2. 一个IP地址的可信度或安全

    性怎样
    评价

  3. 一个IP地址的来源访问怎样
    侦测微风
    险是电子商务或在线支付的考证
    伎俩

  4. 能够

    经过
    GeoIP的API接口经过
    Python中止

    访问考证
    和其他应用REST

另:该网站提供了一个免费的GeoIP数据库

下面我们经过
编辑一个SQLite的下载途径
文件

经过
执行这个流能够

在分钟级别下载到200万的geoIP数据库(能够

永世
保管
在本地)

我们能够

将GeoIP数据库坚持
下来,以后就不用每次运转
再下载了,当然这个库假定

付费的话每天都在更新,也就能够

保证明
时运转
最新数据库了。

从数据库中我们能够

看到有ip_start和ip_end数据值区间范围内的分配ip数据量
和这个范围ip地址所属国度
、地域
、城市,以及ISP的经纬度坐标。

接下来我们假定
该某家网站Apache的weblog能够

记载
下载和更新软件的用户阅读
log数据(假定
有1万个央求

weblog)

我们先用正则表达或Like匹配抽取或者过滤所以的下载download或更新updata的用户央求

地址Url

$Request$ LIKE “GET /knime_downloads/*” => TRUE

$Request$ LIKE “GET /update/*/org.knime.features.base_*” => TRUE

接下来需求
将IP地址的四位地址段整合为一个整数值,以便完成
IP地址的匹配。

IP值=($IP_Arr[0]$ blog.sql fenxike.sql 16777216) + ($IP_Arr[1]$ blog.sql fenxike.sql 65536) + ($IP_Arr[2]$ blog.sql fenxike.sql 256) + $IP_Arr[3]$

下面中止

字段匹配,也就是需求
将IP-number与IP_start和IP_end中止

匹配,由此取得

每个IP地址的所属位置(国度
、经纬度坐标)

这里经过
标注行ID,应用
BIer模块中止

RowID中止

匹配

匹配结果如下:

匹配完成后就是基本

统计和地图可视化了。

经过
统计IP地址数据量
,排序、下载量大小的size、颜色、外形
等特征后能够

采用天文
信息可视化办法

,这里用了OSM(open street map)

这样我们就能够

知道

下载或更新我们软件的用户都来自哪个国度
地域
城市和数据量

接下来主要是可视化技术了,我们能够

用更丰厚
的天文
信息可视化中止

展示

或实时剖析

后续,我们能够

经过
Python中止

实时剖析

和流剖析

归入
用户剖析

系统。

关于作者

沈浩教员

(微信号:artofdata),中国传媒大学新闻学院教授、博士生导师;中国传媒大学调查统计研讨
所所长;大数据挖掘

与社会计算实验室主任;中国市场研讨
行业协会会长

发表评论

评论已关闭。

相关文章