Python爬虫之数据处理
json
基本介绍
JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。
一些好用的json转换网站:www.json.cn
JSON支持数据格式:
- 对象(字典)。使用花括号。
- 数组(列表)。使用方括号。
- 整形、浮点型、布尔类型还有null类型。
- 字符串类型(字符串必须要用双引号,不能用单引号)。
多个数据之间使用逗号分开。
注意: json本质上就是一个字符串。
将python对象转换为json字符串
dump和dumps
举例代码如下:
1 | #encoding: utf-8 |
运行结果:生成一个person.json文件里面的内容是:
1 | [{"username": "张三", "age": 18, "country": "china"}, {"username": "李赛", "age": 20, "country": "china"}] |
将一个json字符串转化成python对象
load 和loads
1 | #encoding: utf-8 |
运行结果:
1 | <class 'list'> |
CSV
基本介绍
逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。
- 纯文本,使用某个字符集,比如ASCII、Unicode、EBCDIC或GB2312;
- 由记录组成(典型的是每行一条记录);
- 每条记录被分隔符分隔为字段(典型分隔符有逗号、分号或制表符;有时分隔符可以包括可选的空格);
- 每条记录都有同样的字段序列。
读取csv文件
reader()返回列表下标读取
1 | #encoding: utf-8 |
DictReader()返回字典key读取
1 | #encoding: utf-8 |
写入csv文件
writer()
1 | #encoding: utf-8 |
DictWriter()
1 | #encoding: utf-8 |
v1.5.2