前几天看视频学的爬虫基础,有点捞。暂时没有过程,附上源代码
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 | import requests from bs4 import BeautifulSoup import lxml headers = { 'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Mobile Safari/537.36'} ''' #爬取整个页面源代码 for i in range(2): html = requests.get('http://xiaohua.zol.com.cn/lengxiaohua//{}.html'.format(i), headers=headers) print(html.text) ''' #爬取页面中的标签 for i in range(2): html = requests.get('http://xiaohua.zol.com.cn/lengxiaohua/{}.html'.format(i), headers=headers) soup = BeautifulSoup(html.text, 'lxml') #print(soup.title)#寻找标题 #print(soup.find_all('li'))#寻找所有li标签 #print(soup.select('li'))#css选择器 标签名:无修饰 class:名前加点 id:名前加# jokes = soup.select('.article-summary') for joke in jokes: title = joke.select('.summary-text')[0].text print(title) |
行云博客 - 免责申明
本站提供的一切软件、教程和内容信息仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序,请支持正版,购买注册,得到更好的正版服务。如有侵权请邮件与我(admin@xy586.top)联系处理。敬请谅解!
本文链接:https://www.xy586.top/94.html
转载请注明文章来源:行云博客 » 最简单的python爬虫