? Python爬虫(3)爬行公众评论网 - 保险监管 - 中国投资网 cc国际娱乐_cc国际网投是真的吗_cc国际平台客服

您所在的位置:

首页 保险监管 > 正文

Python爬虫(3)爬行公众评论网

来源:中国投资网

发布日期:1970-01-01

Dianping的网站爬虫的困难在于它加密了网页上的文本,所以他学会了大家伙的方法,链接如下:

Https://mp.weixin.qq.com/s?__biz=mzg5nde3nzc5mw==&mid=2247483857&idx=1&sn=73f471f9dec5c0948bacb9ef72046e83&chksm=c022c6bff7554fa9010a94a856432e306d0e9bf57fa9fb696d60247524be0c1b7bb69c57669d&mpshare=1&scene=1&srcid=1008yabuccn6b2t61pxgugew&sharer_sharetime=1570546668955&sharer_shareid=eb1f4933af719fb007a42a8afede8eef&pass_ticket=5e1uczsm%2bdaiciosotbsigd4bx2dzlimox42wundprd3qx7hd1i8odq4nsfqeuma#rd

如下图所示,Dianping的评论、价格和地址信息都是方框中的源代码,不能用常规的方式直接爬到信息,但自定义字体,那么页面当然需要加载字体文件。

谷歌浏览器右键选中并单击网络,刷新页面并单击字体,查看加载的字体文件。但是,应该注意到,字体文件和教程已经不同,表明Dianping的字体文件不止一组,因此不可能一劳永逸地爬行Dianping。

复制url下载字体文件并将其粘贴到新页面以下载字体并将字体导入fonteditor中

链接是:http:/fontstore.Baidu.com/Static/Editor/index.html

此外,无法在这里直接导入字体文件。您需要单击左上角来打开字体文件,然后才能进行后续操作。

进口后:

您可以看到这里的代码与上一篇教程中的文件不同,再次证明Meituan自己设计了多组字体。

查看源代码的注释位置如下,其编码与本教程中的基本相同

之后,您可以通过fonttools库解析字体并获取信息。

上一篇:红岭创投公布了第一批189名失信借款人名单

下一篇:最后一页