这本书自2013年第一版发行后,就广受好评。第一版的时候作者用的是Python2,不过随着Python2的维护年限将近(2020),以及Python3的推广,整个社群向Python3转变已经成为不可扭转的趋势。所以在第二版里,作者使用了Python3.6。而我实际写的代码则是基于Python3.5,使用上没有任何差别。
这里提供官方原版英文下载,附件集合了第二版英文原文、第二版的笔记精要、以及第二版原书的代码
2017第二版主要更新:
所有代码,包括Python教程,都升级到了Python3.6(第一版用的是Python2.7)
更新了Python的安装介绍。这次改用Anaconda Python发行版,以及其他一些需要的Python包
使用了最新的2017版pandas
新增了一章,用来介绍pandas的高级应用工具,和其他一些有用的小贴士
简单介绍了如何使用statsmodels和scikit-learn本来很早就知道这本书了,直到最近才终于有时间,打算把这本书完整过一遍,顺便用jupyter做成笔记方便以后查阅。结果在看第一版第三章的时,突然发现作者已经在2017年推出了第二版,不过暂时还没有中文版。想了想反正也要做成笔记,索性直接把英文翻译成中文,做一个简洁版的Notebook版本分享出来好了,也算是为开源世界做点小贡献。
笔记目录
CHAPTER 1:Preliminaries(预备知识)
Chapter 2: Python Language Basics, IPython, and Jupyter Notebooks (Python语言基础,Ipython和Jupyter Notebooks)
Chapter 3: Built-in Data Structures, Functions, and Files (内建数据结构,函数和文件)
Chapter 4: NumPy Basics: Arrays and Vectorized Computation(NumPy基础:数组和向量化计算)
Chapter 5: Getting Started with pandas(开始使用pandas)
Chapter 6: Data Loading, Storage, and File Formats(数据加载,存储,文件格式)
Chapter 7: Data Cleaning and Preparation(数据清洗和准备)
Chapter 8: Data Wrangling: Join, Combine, and Reshape(数据加工:加入, 结合, 变型)
Chapter 9: Plotting and Visualization(绘图和可视化)
Chapter 10: Data Aggregation and Group Operations(数据汇总和组操作)
Chapter 11: Time Series(时间序列)
Chapter 12: Advanced pandas(高级pandas用法)
Chapter 13: Introduction to Modeling Libraries in Python(Python中建模库的介绍)
Chapter 14: Data Analysis Examples(数据分析实例)