数极客首页

利用 pandas和ggplot来分析 iPhone 的步行数据

本文中我将展示如何利用 pandasggplot 来分析 iPhone 的步行数据,我主要利用 Rodeo(Yhat’s 的 IDE)来进行数据分析

数据收集

首先我想从我的 iPhone 中导出用于分析的步行数据,Quantified Self 实验室的工作人员开发了一个数据提取的便捷工具——QS Access。
以下是一组关于步行数据的截图:
利用 pandas和ggplot来分析 iPhone 的步行数据

数据分析

我主要利用 pandas 中的时间序列分析工具来分析数据,当 Wes McKinney开始处理 pandas 项目时,他就已经在一家投资管理公司工作,该行业广泛依赖于时间序列分析方法。因此,pandas 中包含非常多的时间序列分析函数。

首先,当我们拥有了时间序列数据后,我们可以定义参数 parse_dates 使得 pandas 可以正确地处理时间序列数据。对于我们来说,结束时点变量并没有包含额外的有价值的信息,所以我们在分析过程中将不考虑该变量的情况。

最后我们将开始时点变量设定为索引变量,这个设定有助于我们进一步的数据分析。
利用 pandas和ggplot来分析 iPhone 的步行数据

每小时步行数据

如何快速地绘图分析现有的步行数据呢?
利用 pandas和ggplot来分析 iPhone 的步行数据

更精确地说,我们可以利用 downsampling 的方法来降低时间的频度。比如,我们可以采集每小时的数据,然后利用重抽样和汇总计算的方法获得日度数据、周度数据和月度数据。

获取每天步行数据

利用 pandas和ggplot来分析 iPhone 的步行数据

获取每周和每月步行数据

和上述代码一样,只要将 WM 传递到 resample 函数中就能得到每周和每月的步行数据。

由于我更关心每天的运动情况,所以我将利用平均函数来计算每周或每月中平均每天的步行情况。具体的代码如下所示:
利用 pandas和ggplot来分析 iPhone 的步行数据

更深入的分析

利用 pandas和ggplot来分析 iPhone 的步行数据

趋势分析

最后让我们来讨论下上文提到的上升趋势,四月初由于工作的原因,我从夏洛特搬到了纽约城,担任 Yhat的软件工程师。
我想知道经过这次搬家之后,我每天的步行情况有没有发生改变?我们可以利用上文分析周末与工作日步行情况的方法来分析这个问题。
利用 pandas和ggplot来分析 iPhone 的步行数据

总结

我希望这个分析可以让您开始关注自己每天的步行情况,并利用 Rodeo 和 pandas 来分析数据。如果你对这个项目感兴趣的话,可以参阅该链接。

原文链接:http://blog.yhat.com/posts/phone-steps-timeseries.html
原文作者:Ross
译者:Fibears

发表评论

评论已关闭。

相关文章