您现在的位置: 365建站网 > 365学习 > 批量提取 sitemap.xml 中的链接生成 sitemap.txt (Python脚本)

批量提取 sitemap.xml 中的链接生成 sitemap.txt (Python脚本)

文章来源:365jz.com     点击数:1040    更新时间:2009-09-22 09:37   参与评论


题目读起来很绕,是这样的,我的小站用了dedecms的一个插件,它能生成若干个 google sitemap 的 .XML 文件,然而却没有对应的利于百度收录的插件可使用。在网上查了一下,说是要提取这些 .xml 文件中的链接出来,生成一个对应的 sitemap.txt 才行,然后以如下格式放到 robot.txt 中

Sitemap: http://your site/sitemap.xml. http://your site/sitemap.txt

可是一个一个手动提取其中的链接太麻烦了,我用了20分钟写了一个 python 脚本,方便这个操作,当然程序还很简陋,但也足够我用了。

现在的功能是:从网站下载 sitemap.xml 文件,提取其中的链接生成 sitemap.txt 然后再传回网站,最后生成一个 robot.txt 作为参考。因为文件较多,我用了一个线程池,加快处理速度。

这个小脚本是在 linux 下写的,测试运行良好,我没有在 win32 平台下测试,但也应该能够工作。




脚本中引用的 common 模块中存放了一个线程池(抄来的 -O-),代码如下:


如对本文有疑问,请提交到交流论坛,广大热心网友会为你解答!! 点击进入论坛


发表评论 (1040人查看0条评论)
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
用户名: 验证码: 点击我更换图片
最新评论
------分隔线----------------------------