关于 Content-Encoding: gzip

2012-04-20

背景

===

如果你的网页抓取程序（例如爬虫）在抓取网页时没有发送 Accept-Encoding: gzip，那么你 out 了：

因为今天超过 99% 的网页抓取程序都会声明支持 gzip （或 deflate）编码。

如果你的程序属于这 99%，那么恭喜，但别高兴的太早。你的程序是否正确处理了 Content-Encoding: gzip？

问题

===

典型的处理 Content-Encoding: gzip 的代码片段 (python)：

html_data = GzipFile(fileobj=StringIO(html_data), mode="r").read()

假设 html_data 为 Web 服务器返回的Content-Encoding 为 gzip 的数据。

那么在大多数情况下，上述代码都能正确处理。但很不幸，你会发现，对有些 url，浏览器可以正常显示内容，

但是你的网页抓取程序会出错！

分析

===

不是所有 Web 服务器（或应用）都是遵纪守法的公民。极少数应用，会在 gzip 压缩后的数据后面，添加一些“尾巴”数据。

一些数据解压模块（如Python 的 GzipFile 模块）在这种情况下会出现处理异常。

例外的是浏览器。它们充分体会和考虑到了现实世界的复杂，会自动抛弃多出的“尾巴”，正常解压和处理页面数据。

解决

===

Python GzipFile 模块有个未公开属性： extrabuf，负责保存已经成功解压的数据。因此，下面的代码有更好的兼容性：

try:
gf =GzipFile(fileobj=StringIO(html_data), mode="r")
html_data = gf.read()except:
html_data = gf.extrabuf

html_data = GzipFile(fileobj=StringIO(html_data), mode="r").read()

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

【编译原理】实验一:词法分析器的自动实现(Lex词法分析)

织梦DEDECMS自动清除文章内段落标签的调用方法

织梦DEDECMS自动清除文章内段落p标签样式而保留p标签的方法：今天在发布文...

P2项目答辩总结

1、登录 1.1 登录的时候做vip的判断； 1.2 使用JWT(Java We...

网站百度统计被恶意刷广告的处理方法

织梦导航高亮标签currentstyle调用自定义字段的方法

用织梦仿站时候，经常会使用currentstyle标签高亮当前的栏目，具体代码为...

聊一聊js中元素定位的方法

在做selenium web自动化的时候，有时通过selenium定位不到，或无...

织梦的联动信息类型只能增加一级和三级选择,不能增加二级选择解决方法

在修改联动类别里面的信息类型的时候发现只能增加一级选择和三级选择，就是不能增加二...

JavaWeb项目开发步骤

详解vue 路由跳转四种方式 (带参数)[转载]

python如何获取系统内存占用信息

python获取系统内存占用信息的方法：首先需要导入psutil模块；然后使用【...

织梦虚拟主机二级域名绑定子目录

二级域名绑定子目录的方法个人建站时，大家很少会去花费重额去购置服务器，而大多数...

dedecms列表页加载更多功能的实现

dedecms 列表页加载更多插件，加载更多按钮为下拉自动触发形式，本次织梦de...

关于 ContentEncoding: gzip 知道创宇

关于 Content-Encoding: gzip

评论(0)

提示：请文明发言取消回复

作者信息

最近更新

2022年最新BellooV4.3.2(贝罗交友约会)php破解源码-完整的高级约会源码

wordpress 阅读量每次访问随机增加的插件

原创 WordPress 主题 C7V5 扁平化|响应式|HTML5主题

CSS 选择器权重特性

宝塔Linux面板一键挂载云服务器硬盘

Linux 系统介绍以及常用命令（零基础级别）

2022年最新wordpress日主题Ripro子主题-ziyuan-zhankr蓝色资源网主题V3.0.3子主题破解版

HTML head 头标签详细解答

关于 ContentEncoding: gzip 知道创宇

关于 Content-Encoding: gzip

评论(0)

提示：请文明发言 取消回复

相关文章

作者信息

最近更新

提示：请文明发言取消回复