博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python小爬虫实例
阅读量:5773 次
发布时间:2019-06-18

本文共 1556 字,大约阅读时间需要 5 分钟。

有几个注意点:

# -*- coding: utf-8 -*- # func passport jw.qdu.edu.cnimport reimport urllib # python3后urllib.request代替urllib2import urllib.requestimport jsonfrom bs4 import BeautifulSoupclass taofen:    def getHtml(self , pageurl):        # 获取网站html代码        req = urllib.request.Request(pageurl , headers = {            'Connection': 'Keep-Alive',            'Accept': 'text/html, application/xhtml+xml, */*',            'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',            'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'        })        _respose = urllib.request.urlopen(req , timeout = 2)        try:            html = _respose.read().decode('UTF-8').replace(' ','')        except Exception as e:            pass        return html    def getKind(self , html):        soup = BeautifulSoup(html , "html.parser")        liList = soup.find_all('li')        res = []        for li in liList:            if li.img and li.find(class_ = "change_price"):                img = li.img.attrs['original']                name = li.img.attrs['alt']                price = li.find(class_ = "change_price").string                resNode = {
'img':img,'name':name,'price':price} res.append(resNode) return resif __name__ == "__main__": taofen = taofen() html = taofen.getHtml("http://www.taofen8.com/promcat-4/cat-300/subcat-0/page-1/order-3/sp-2") res = taofen.getKind(html) #ensure_ascii=False将utf-8编码的中文正确显示 res = json.dumps(res , ensure_ascii = False) print(res)

 

转载地址:http://bvaux.baihongyu.com/

你可能感兴趣的文章
jackson not marked as ignorable异常
查看>>
Python version 2.7 required, which was not foun...
查看>>
android 模拟器 横竖屏切换
查看>>
centos7.3 下安装 composer,解决Failed to decode zlib stream错误
查看>>
Git 常用命令
查看>>
在Postgres 数据库中生成36位的UUID代码
查看>>
小黑小波比.功能测试登录用户
查看>>
Java enum用法详解
查看>>
去云端的多条途径
查看>>
Docker容器从一知半解到入门
查看>>
关于“方法参数”
查看>>
Redis命令总结
查看>>
unable to write 'random state'错误解决
查看>>
win7 wamp 下安装pear phpunit
查看>>
context:annotation-config vs component-scan
查看>>
HTTP协议理解与应用总结
查看>>
使用Supervisor守护Python进程
查看>>
结构体和类的内存对齐原则-这一次弄清楚了对齐的本质规则
查看>>
Centos编译安装Nginx和PHP
查看>>
XDOC云服务-简单参数报表
查看>>