最新要闻

广告

手机

iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?

iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?

警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案

警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案

家电

最新:python奇葩反爬-你是故意的还是不小心的

来源:博客园


【资料图】

问题

在挖掘数据时,数据存在于js文件内,所以主要思路就是,把数据提取出来,直接转json格式,通过字典的键索引获取数据。奈何在转json格式的时候一直报错。

报错:Expecting value: line 1 column 2012 (char 1)我总不能一个一个字符地数吧!!

问题分析

通过json在线解析定位到了错误位置,然后发现这有个反爬。这个反爬并不涉及参数加密、混淆等手法。纯属是针对爬虫开发语言规则做出的反爬。部分页面源码如下:

这里的\u0022指的就是双引号("),转换一下就是"introduction":"{"html":"我司是一家拥有多年羊毛衫生产经验的专业生产厂家"}"

不难发现,这里有一个错误,就是双引号套双引号"{"html":"..."}",我们只需要用replace把双引号替换成单引号就可以了。

# reInfo是获取到的文本reInfo = reInfo.replace("\"html\":\"", "\"html\":\""))

麻了,真不知道这位前端程序员是故意的还是不小心的!!!

关键词: 问题分析 生产经验 就可以了