爬取的网站:http://www.100ec.cn/
这是关于跨境物流方面的一个爬虫实例
主要用来爬去关于跨境物流等相关信息
以供朋友论文作为参考资料!!!
爬取比较简单,并没有遇到ajax操作便不再此做过多介绍。。。
如果有问题,请提issue
在参考本项目之前,也可先阅读Scapy文档,熟悉了解Scrapy!
Q:为什么爬取下来的是乱码?
A:爬完的数据需要用Excel进行转码,字符集由于当时时间紧迫就没有转换。(推荐pull者可使用Word转码功能便可显示中文)
此项目使用的是Windows操作系统,仅以此为例 MAC操作系统可自行百度,过程大同小异!
pip install scrapy
爬取保存到本地,可在pipelines.py配置自己的保存路径
def __init__(self):
filename = "C:\\Users\\Administrator\\Desktop\\Thesis\\跨境物流论文.txt"
filename = unicode(filename, "utf8")
self.file = codecs.open(filename, 'a', encoding='utf-8')
scrapy crawl lw.py
咖啡是每个程序员的最爱!
有了咖啡的陪伴,一个人才能度过coding之夜,
有了咖啡的陪伴,一个人的夜晚才算得上是完美。
本人,业余爱好咖啡,
并经营一些咖啡相关商品,
如果您也有喝咖啡的习惯,
赶快来关注我的公众号吧,
---加我有优惠哦---
- 爬取有关此网站的所有与跨境物流有关的论文


