“JSON(JavaScriptObjectNotation,JS对象简谱)是一种轻量级的数据交换格式。它基于ECMAScript(欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得JSON成为理想的数据交换语言。易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。”——《百度百科》
我们在爬取网站的时候,经常会遇到获取了html却没有在标签里找到数据的情况。这种情况大概率html只是一个框架,而数据是JavaScript脚本从服务器获取JSON数据后再把数据写入标签的。所以我们直接获取html会找不到需要的数据。解决的方法也不难,使用浏览器的开发者模式可以看到网页对服务器发出的请求,找到获取数据的请求后模拟该请求即可从服务器获取JSON数据。获取JSON数据后即可用json库转化为python的数据类型。下面是JSON和python数据类型的对照表。
Python |
JSON |
dict | object |
list,tuple | array |
str,unicode | string |
int,float | number |
True | true |
False | false |
None | null |
JSON库有4个常用的方法,下面来一一介绍给大家。
json.loads()该方法是将JSON字符串转化为python数据类型。
#导入json库
importjson
#定义JSON格式的字符串
json_str = \'{\"测试\": 123}\'
#使用loads()将JSON字符串转化为python数据类型,将会返回{\"测试\":123}
json.loads(json_str)
json.dumps()该方法是将python数据类型转化为JSON字符串。
#导入json库
importjson
#定义一个字典
dic = {\"测试\": 123}
#使用dumps()将python字典转化为JSON字符串,将会返回\'{\"测试\": 123}\'
#ensure_ascii参数设置为False时允许有中文
json.dumps(dic,ensure_ascii=False)
json.load()该方法是将文件中的JSON字符串转化为python数据类型。
#导入json库
importjson
#定义JSON格式的字符串
json_str = \'{\"测试\": 123}\'
#将字符串写入文件
with open(file, \'w\', encoding=\'utf-8\')asf:
f.write(json_str)
#使用load()从文件读取JSON字符串转化为python数据类型,将会返回一个字典
withopen(file,\'r\',encoding=\'utf-8\')asf:
j=json.load(f)
json.dump()该方法是将python数据类型转化为JSON字符串后写入文件。
#导入json库
importjson
#定义一个字典
dic={\"测试\":123}
#使用dump()将python数据类型转化为JSON字符串后写入文件,indent参数设置缩进
withopen(file,\'w\',encoding=\'utf-8\')asf:
json.dump(dic, f, ensure_ascii=False,indent=4)
获取了字典后,可以逐层遍历字典item去查看数据所在的位置和关联的键,这样就能用代码把数据“揪”出来了。
总结:1.loads(),dumps()这两个后面带s的方法就是跟字符串有关的方法2.创建JSON格式的字符串时只能用双引号3.有中文时需要设置ensure_ascii参数
4.indent参数能设置缩进的空格