数极客首页

20本机器学习与数据科学必读书籍

20本机器学习与数据科学必读书籍
  • 作者 | Mahew Mayo
  • 编译 | Liu Zhiyong
  • 编辑 | Natalie
  • 微信公众号“AI 前线”,(ID:ai-front)

1. 《统计思想
:程序员数学之概率统计》Think Stats: ProbaBIlity and Statistics for Programmers

  • Allen B. Downey|著
  • 张建峰 等|译

英文:http://www.greenteapress.com/thinkstats/

中文:https://union-click.jd.com/jdc?d=eysyRS

本书是 Python 程序员对概率和统计的引见

本书强调了一些简单的技术,您能够

应用
这些技术来探求

真实的数据集并回答

有趣的问题。该书的样例基于美国国立卫生研讨
院的数据,并鼓舞
读者运用
真实的数据集展开项目。

2. 《贝叶斯办法

:概率编程与贝叶斯推断》ProbaBIlistic Programming & Bayesian Methods for Hackers

  • Cam Davidson-Pilon|著
  • 辛愿 等|译

英文:http://camdavidsonpilon.github.io/ProbaBIlistic-Programming-and-Bayesian-Methods-for-Hackers

中文:https://union-click.jd.com/jdc?d=noCI83

本书以计算 / 了解

为主,数学为辅,引见
了贝叶斯办法

理论和概率编程。

贝叶斯办法

是对数学剖析

自但是
然的估量
与推论,但贝叶斯办法

的推理十分

晦涩、繁杂

、难懂。通常引见
贝叶斯推断之前,要先引见
两到三章的概率论的相关内容。不幸的是,由于大多数贝叶斯模型的数学复杂性,读者只能看到简单的、人为编造

的示例。于是给读者留下一种“贝叶斯似乎也没什么用处

”的错觉。事实上作者自己

在刚开端
学贝叶斯办法

就有过这种尴尬

3. 《深化
了解

机器学习:从原理到算法》Understanding Machine Learning: From Theory to Algorithms

  • Shai Shalev-Shwartz 等|著
  • 张文生|译

英文:http://www.cs.huji.ac.il/~shais/UnderstandingMachineLearning/

中文:https://union-click.jd.com/jdc?d=RFII4v

机器学习是计算机科学展开

最快的范畴
之一,具有深远的应用。本书的目的是以准绳
性的方式引见
机器学习及其提供的算法范例。本书提供了机器学习的基础

学问
,以及将这些原理转化为理论

算法的数学推导的阐明

。在引见
基础

学问
之后,本书还涵盖了以前教科书没有提到的大量重要的课题。课题包括讨论学习的计算复杂性、凸性和稳定性的概念;重要的算法包括随机梯度降落
、神经网络和结构

化输出式学习;以及新兴的理论概念,如 PAC-Bayes 办法

和 compression-based bounds 等。

4. The Elements of Statistical Learning

  • Trevor Hastie 等|著

英文:http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf

中文:无

这本书在通用概念框架的基础

上论述

了统计学范畴
的重要思想。固然
本书的许多办法

都是基于统计学的,但它的重心在概念上而不是数学理论上。本书以彩色配图的方式
给出了大量的样例。本书对统计学家以及任何对科学或工业数据挖掘

感兴味
的从业人士来说都是一本不可多得的好书。本书的掩盖
面很广,从监视
式学习(预测)到非监视
式学习都有所涉猎。书中还提到了神经网络、支持向量机、分类树、预测和分级助推之类的其他话题,这也是相关话题在一切
书籍中初次
全面论述

的一本书。

5. 《统计学习导论:基于 R 应用》An Introduction to Statistical Learning with Applications in R

  • Gareth James 等|著
  • 王星|译

英文:http://www-bcf.usc.edu/~gareth/ISL/

中文:https://union-click.jd.com/jdc?d=bf87xm

本书引见
了统计学习办法

。本书主要面向非数学专业的高年级本科生、硕士研讨
生和博士生。本书包括大量的 R 言语
的实例,这些实例细致
解释了怎样
将统计办法

运用
真实世界情形设置的细致
解释,这些资源关于
有志于成为数据科学家的人来说应该很有价值。

6. Foundations of Data Science

  • Avrim Blum 等|著

英文:https://www.cs.cornell.edu/jeh/book.pdf

中文:无

固然
计算机科学的传统范畴
依然

十分

重要,但越来越多的研讨
人员眼光

转向了怎样
应用
计算机从应用中产生的大量数据中了解

和提取有用的信息,而不只
仅是用计算机处置

理论

的应用问题。鉴于上述缘由
,本书涵盖了未来

四十年里都会十分

有用的技术理论,这些理论的重要性,就相当于自动控制的原理和算法,它们在过去四十年里对学生们在数据科学上的研讨
起到了很大的作用。

7. 《写给程序员的数据挖掘

理论
指南》A Programmer’s Guide to Data Mining: The Ancient Art of the Numerati

  • Ron Zacharski|著
  • 王斌|译

英文:http://guidetodatamining.com/

中文:https://union-click.jd.com/jdc?d=GQ9u7w

本书的编写理念是遵照
一个按部就班
的办法

,引导读者运用
作者提供的 Python 代码中止

练习和实验,而不是被动地去阅读本书。作者倡议

读者们能够

积极参与这个编程的实战中去,去尝试数据挖掘

的技术。本书经过
将学问
点合成
成一系列小步骤,当读者学完本书时,就能够

控制
一个关于
数据挖掘

技术的基本

了解

了。

8.《大数据: 互联网大范围
数据挖掘

与散布

式处置
》Mining of Massive Datasets

  • Jure Leskovec 等|著
  • 王斌|译

英文:http://mmds.org/

中文:https://union-click.jd.com/jdc?d=2fudaj

本书由斯坦福大学 CS246:Mining Massive Datasets 和 SC345A:Data Mining 课程的内容总结而成。

本书的设计同斯坦福课程一样,假定
读者没有相关的准备
基础

学问
。假定

读者想要了解

更深层的东西,大多数章节都附有参考书目,读者能够

按此索引中止

深化
学习。

9. 《深度学习》Deep Learning

  • Ian Goodfellow 等|著
  • 赵申剑 等|译

英文:http://www.deeplearningbook.org/

中文:https://union-click.jd.com/jdc?d=HK6Cxh

本书旨在辅佐

读者进入机器学习的范畴
,特别
是深度学习。网上有完好
的在线免费版可供阅读。

10. 《机器学习锻炼
秘籍》Machine Learning Yearning

  • Andrew Ng|著

英文:http://www.mlyearning.org/

中文:微信公众号 ngDeepLearningai

人工智能、机器学习和深度学习正在改动
着许多行业。但是树立
一个机器学习系统需求
你做出以下的一些决策:

  • 应该搜集
    更多的锻炼
    数据吗?
  • 应该运用
    端对端的深度学习吗?
  • 怎样
    处置
    与测试集不匹配的锻炼
    集?
  • 等等……

11. Python 数据科学手册 Python Data Science Handbook

  • Jake VanderPlas|著
  • 陶俊杰

    等|译

英文:https://github.com/jakevdp/PythonDataScienceHandbook

中文:https://union-click.jd.com/jdc?d=KBvZ05

本书引见
了运用
Python 处置
数据所必需的中心
库:IPython、NumPy、panda、Matplotlib、Scikit-Learn 以及相关包。本书央求

读者需熟习
Python 言语
。假定

读者想快速学习 Python,可选读作者另一本著作 A Whirlwind Tour of Python,该书是为计算机相关人员准备的快速入门。

12. Neural Networks and Deep Learning

  • Michael Nielsen|著

英文:http://neuralnetworksanddeeplearning.com

中文:无

本书分两部分

  • 神经网络:一种唯美的、从万物生长中吸取

    灵感的编程范式,使计算机能够

    从数据中学习;

  • 深度学习:一系列强有力的技术,让神经网络壮大起来。

目前,神经网络和深度学习在图像辨认

、语音辨认

和自然言语
处置
等诸多问题提供了最佳的处置

计划

。本书将教会读者许多神经网络和深度学习背后的中心
概念。

13. 《贝叶斯思想
》Think Bayes

  • Allen B. Downey|著
  • 许杨毅|译

英文:http://greenteapress.com/wp/think-bayes/

中文:https://union-click.jd.com/jdc?d=zHle26

本书讲述的是怎样
运用
计算办法

处置
贝叶斯统计。

作为 Think X 丛书之一,本书的编写理念是,假定

读者会编程,就能够

用这项技艺
来学习其他科目了。

多数关于贝叶斯统计的书,用的都是数学符号,也就是以数学概念如微积分来表达其思想。本书用的是 Python 代码,取代了数学符号,用离散近似替代
连续数学。结果,数学里的积分变成了求和,概率散布

的运算大多成了简单的环。

14. Machine Learning & BIg Data

  • Kareem Alkaseer|著

英文:http://www.kareemalkaseer.com/books/ml

中文:无

本书尚未完成,将随着时间推移进一步完善。本书的理念是,在理论和理论
之间取得

均衡

,让软件工程师能够

轻松运用
机器学习模型,而不用
过火
依赖库。多数状况

下,模型或技术背后的概念都比较

简单直观,但在细节或术语上就有所欠缺。另外,现有的库通常都能够

处置

手头的问题,但它们都是黑盒,它们多数还有自己

的笼统
办法

和结构

,看不到基本

概念。本书的目的就是要把这些躲藏
的基本

概念弄分明

15. Statistical Learning with Sparsity: The Lasso and Generalizations

  • Trevor Hastie 等|著

英文:https://web.stanford.edu/~hastie/StatLearnSparsity/

中文:无

在过去的十年里,计算机和信息技术发作
了爆炸式增长。随之而来的是医学、生物学、金融和市场营销等范畴
有了大量数据。本书在通用的概念框架中论述

了这些范畴
的重要思想。

16. Statistical inference for data science

  • Brian Caffo|著

英文:https://leanpub.com/LileInferenceBook

中文:无

本书是 Coursera 课程 Statistical Inference(推论统计学)的配套书,也是 Data Science(数据科学)专业课的一部分

。但是
,假定

读者不上这门课,本书也可阅读。

本书目的是对重要的推论统计学范畴
中止

引见
。目的
读者是有数学背景、具备编程才干

的学生,辅佐

他们把这样的技艺
用到数据科学或统计学中去。

17. 《凸优化》Convex Optimization

  • Stephen Boyd 等|著
  • 王书宁 等|译

英文:http://stanford.edu/~boyd/cvxbook/

中文:https://union-click.jd.com/jdc?d=kBrTS3

本书是讲述关于凸优化的问题。凸优化是一类特殊的数学优化问题,最小二乘法和线性规划问题也属于此类。众所周知,最小二乘法和线性规划问题有相当完好
的理论,在各种应用中都有呈现
,并且能够

十分

有效地用数值办法

求解。本书的基本

要点是,关于
较大的凸优化问题,也能够

这样用编程的方式来处置

18. 《Python 自然言语
处置
》Natural Language Processing with Python

  • Steven BIrd|著
  • 张旭 等|译

英文:https://www.nltk.org/book/

中文:https://union-click.jd.com/jdc?d=RSf7bd

本书是关于自然言语
处置
的书。所谓“自然言语
”,是指一种人类日常交流所运用
的言语
:英语、印地语或葡萄牙语等。与编程言语
和数学表示法等人工言语
不同的是,自然言语
是在代代相传的过程中而进化的,很难用明白
的规则来解析其中的含义。我们将把自然言语
处置
普遍
地应用于任何一种自然言语
的计算机操作。

本书是基于 Python 编程言语
和一个名为自然言语
工具包(NLTK)的开源库而写成的。

19. Automate the Boring Stuff with Python

  • Al Sweigart|著

英文:https://automatetheboringstuff.com/

中文:无

你能否
曾经破费

好几个小时来重命名文件、或者更新表格里的几百个单元?这些任务是多么乏味,那就让电脑来为你效能
吧!

Python 能够

帮你完成这些乏味的任务。本书将教会你怎样
运用
Python 编程来帮你完成那些乏味的任务。本书不央求

读者有编程阅历

,只需跟随本书即可控制
相关编程技巧。一旦控制
编程的基础

学问
,创建

能够

毫不费力地执行自动化的 Python 程序将是一件易如反掌
的轻松事儿。

20. 《社会媒体挖掘

》Social Media Mining: An Introduction

  • Reza Zafarani 等|著
  • 刘挺 等|译

英文:http://dmml.asu.edu/smm/

中文:https://union-click.jd.com/jdc?d=VyZxUc

过去十年,社交媒体的展开

改动
了个人互动和行业展开
业务的方式。个人经过
社交媒体互动、分享和消费内容,以史无前例
的速度生成数据。了解

和处置
这种新型的数据,从而搜集
可操作的方式

,为跨学科研讨
、新算法和工具开发提供了应战
和机遇

。社交媒体挖掘

整合了社交媒体、社交网络剖析

和数据挖掘

,为学生、从业者、研讨
人员和项目经理提供了一个便当
、衔接

的平台,以了解

社交媒体挖掘

的基础

和潜力。

参考链接:

https://www.kdnuggets.com/2017/04/10-free-must-read-books-machine-learning-data-science.html

https://www.kdnuggets.com/2018/05/10-more-free-must-read-books-for-machine-learning-and-data-science.html

发表评论

评论已关闭。

相关文章