我使用本脚本处理httrack程序下载的phpbb2论坛页面,对下载页面中的冗余部分进行去除和合并,以达到减小文件大小,以供存储的目的。

原理是:如果两个html页面十分相似(用diff检查的差别小于定义的最大差别),那么删除其中的一个,将其余文件中指向被删除文件的链接改为指向与之相似的文件。

具体实现看代码好了。使用了Python的os,re,difflib库。

Attach:FuzzyPages.zip

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。