导读:Python数据工具箱涵盖从数据源到数据可视化的完整流程中涉及到的常用库、函数和外部工具。其中既有Python内置函数和标准库,又有第三方库和工具。
这些库可用于文件读写、网络抓取和解析、数据连接、数清洗转换、数据计算和统计分析、图像和视频处理、音频处理、数据挖掘/机器学习/深度学习、数据可视化、交互学习和集成开发以及其他Python协同数据工作工具。
作者:宋天龙
如需转载请联系华章科技
为了区分不同对象的来源和类型,本文将在描述中通过以下方法进行标识:
- Python内置函数:Python自带的内置函数。函数无需导入,直接使用。例如要计算-3.2的绝对值,直接使用abs函数,方法是
abs(-3.2)
- Python标准库:Python自带的标准库。Python标准库无需安装,只需要先通过import方法导入便可使用其中的方法。例如导入string模块,然后使用其中的find方法:
import string string.find('abcde','b')
- 第三方库:Python的第三方库。这些库需要先进行安装(部分可能需要配置)。
- 外部工具:非Python写成的库或包,用于Python数据工作的相关工具。
「推荐度」3星最高,1星最低。
01 文件读写文件的读写包括常见的txt、Excel、xml、二进制文件以及其他格式的数据文本,主要用于本地数据的读写。
1. open(name[, mode[, buffering]])
- 类型:Python内置函数
- 描述:Python默认的文件读写方法
- 推荐度:★★★
2. numpy.loadtxt、numpy.load和numpy.fromfile
- 类型:第三方库
- 描述:Numpy自带的读写函数,包括loadtxt、load和fromfile,用于文本、二进制文件读写
- 推荐度:★★★
3. Pandas.read_*
- 类型:第三方库
- 描述:Pandas自带的read文件方法,例如ead_csv、read_fwf、read_table等,用于文本、Excel、二进制文件、HDF5、表格、SAS文件、SQL数据库、Stata文件等的读写
- 推荐度:★★★
4. xlrd
- 类型:第三方库
- 描述:用于Excel文件读取
- 推荐度:★★
5. xlwt
- 类型:第三方库
- 描述:用于Excel文件写入
- 推荐度:★★
6. pyexcel-xl
- 类型:第三方库
- 描述:用于Excel文件读写
- 推荐度:★★
7. xluntils
- 类型:第三方库
- 描述:用于Excel文件读写
- 推荐度:★★
8. pyExcelerator
- 类型:第三方库
- 描述:用于Excel文件读写
- 推荐度:★
9. openpyxl
- 类型:第三方库
- 描述:用于Excel文件读写
- 推荐度:★
10. lxml
- 类型:第三方库
- 描述:xml和HTML读取和解析
- 推荐度:★★★
11. xml
- 类型:Python标准库
- 描述:xml对象解析和格式化处理
- 推荐度:★★★
12. libxml2
- 类型:第三方库
- 描述:xml对象解析和格式化处理
- 推荐度:★
13. xpath
- 类型:第三方库
- 描述:xml对象解析和格式化处理
- 推荐度:★★
14. win32com
- 类型:第三方库
- 描述:有关Windows系统操作、Office(Word、Excel等)文件读写等的综合应用库
- 推荐度:★
网络抓取和解析用于从互联网中抓取信息,并对HTML对象进行处理,有关xml对象的解析和处理的库在“01 文件读写”中找到。
15. requests
- 类型:第三方库
- 描述:网络请求库,提供多种网络请求方法并可定义复杂的发送信息
- 推荐度:★★★
16. urllib
- 类型:Python标准库
- 描述:Python自带的库,简单的读取特定URL并获得返回的信息
- 推荐度:★★
17. urllib2
- 类型:Python标准库
- 描述:Python自带的库,读取特定URL并获得返回的信息,相对于urllib可处理更多HTTP信息,例如cookie、身份验证、重定向等
- 推荐度:★★
18. urlparse
- 类型:Python标准库
- 描述:Python自带的URL解析库,可自动解析URL不同的域、参数、路径等
- 推荐度:★★★
19. HTMLParser
- 类型:Python标准库
- 描述:Python自带的HTML解析模块,能够很容易的实现HTML文件的分析
- 推荐度:★★★
20. Scapy
- 类型:第三方库
- 描述:分布式爬虫框架,可用于模拟用户发送、侦听和解析并伪装网络报文,常用于大型网络数据爬取
- 推荐度:★★★
21. Beautiful Soup
- 类型:第三方库
- 描述:Beautiful Soup是网页数据解析和格式化处理工具,通常配合Python的urllib、urllib2等库一起使用
- 推荐度:★★★
数据库连接可用于连接众多数据库以及访问通用数据库接口,可用于数据库维护、管理和增、删、改、查等日常操作。