• 欢迎访问行云博客,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站,欢迎加入行云博客 QQ群
  • 本站广招各类优秀作者,详情可以加群联系
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏行云博客吧

最简单的python爬虫

Python 行云 6个月前 (03-14) 290次浏览 已收录 0个评论 扫描二维码

前几天看视频学的爬虫基础,有点捞。暂时没有过程,附上源代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
import requests
from bs4 import BeautifulSoup
import lxml



headers = {
'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Mobile Safari/537.36'}

'''
#爬取整个页面源代码
for i in range(2):
    html = requests.get('http://xiaohua.zol.com.cn/lengxiaohua//{}.html'.format(i), headers=headers)
print(html.text)

'''


#爬取页面中的标签
for i in range(2):
    html = requests.get('http://xiaohua.zol.com.cn/lengxiaohua/{}.html'.format(i), headers=headers)
    soup = BeautifulSoup(html.text, 'lxml')
    #print(soup.title)#寻找标题
    #print(soup.find_all('li'))#寻找所有li标签
    #print(soup.select('li'))#css选择器 标签名:无修饰     class:名前加点  id:名前加#
    jokes = soup.select('.article-summary')
    for joke in jokes:
        title = joke.select('.summary-text')[0].text
        print(title)

行云博客 - 免责申明

本站提供的一切软件、教程和内容信息仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序,请支持正版,购买注册,得到更好的正版服务。如有侵权请邮件与我(admin@xy586.top)联系处理。敬请谅解!

本文链接:https://www.xy586.top/94.html

转载请注明文章来源:行云博客 » 最简单的python爬虫

喜欢 (5)
[行云博客]
分享 (0)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址