首页 最新 热门 推荐

  • 首页
  • 最新
  • 热门
  • 推荐

第一天学爬虫

  • 25-04-24 06:41
  • 2815
  • 9668
blog.csdn.net

阅读提示:我今天才开始尝试爬虫,写的不好请见谅。

一、准备工具

  • requests库:发送HTTP请求并获取网页内容。
  • BeautifulSoup库:解析HTML页面并提取数据。
  • pandas库:保存抓取到的数据到CSV文件中。

二、爬取步骤

  • 发送请求: 对于目标网页,使用requests.get()发送HTTP请求并获取网页的HTML内容。
  • 解析HTML: 使用BeautifulSoup解析网页,并寻找包含信息的HTML元素。
  • 提取数据: 找到合适的HTML标签和类名,提取信息。
  • 分页爬取: 如果网站有分页,可以在代码中处理分页逻辑,循环抓取每一页的数据。
  • 保存数据: 使用pandas或内置的文件写入功能,将抓取到的数据保存到CSV文件中。

三、爬虫代码

网页

  1. <div class="pic">
  2. <em>1em>
  3. <a href="https://movie.douban.com/subject/1292052/">
  4. 100" alt="肖申克的救赎" src="https://img3.doubanio.com/view/photo/s_ratio_poster/public/p480747492.webp">
  • ">
  • 导演: 弗兰克·德拉邦特 Frank Darabont   主演: 蒂姆·罗宾斯 Tim Robbins /...
  • 1994 / 美国 / 犯罪 剧情
  • ">
  • " property="v:average">9.7
  • " content="10.0">
  • 3148544人评价
  • ">

  • 希望让人自由。
  •  爬虫代码:(我这里只爬虫了一部分)

    1. from bs4 import BeautifulSoup
    2. import requests
    3. import pandas as pd
    4. def getFilm():
    5. try:
    6. # 添加请求头
    7. headers = {
    8. 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
    9. }
    10. # 获取网页内容
    11. res = requests.get("https://movie.douban.com/top250?start=0&filter=", headers=headers, timeout=10)
    12. res.encoding = 'utf-8' # 修正编码设置
    13. # 解析网页
    14. soup = BeautifulSoup(res.text, 'html.parser')
    15. # 获取数据
    16. film_data=soup.find('div',class_='hd')
    17. if not film_data:
    18. print("未找到信息")
    19. print(res.status_code) # 应该是200
    20. return None
    21. name=soup.find('span',class_='title').text.strip()
    22. score=soup.find('span',class_='rating_num').text.strip()
    23. word=soup.find('p',class_='quote')
    24. dictum=word.find('span').get_text()
    25. df=pd.DataFrame({'电影名':[name],'评分':[score],'寄语':dictum})
    26. return df
    27. except Exception as e:
    28. print(f"发生错误: {e}")
    29. return None
    30. def main():
    31. df= getFilm() # 修正变量名
    32. if df is not None:
    33. print(df) # 打印DataFrame
    34. else:
    35. print("未能获取数据")
    36. if __name__ == '__main__':
    37. main()

    四、拓展(设置请求头)

    请求头(HTTP Headers)是客户端(如浏览器或爬虫)在发送 HTTP 请求时,附带的一组 键值对(Key-Value)信息,用于告诉服务器 你是谁、你想获取什么、以及如何返回数据。

    请求头字段示例值作用
    User-AgentMozilla/5.0 (Windows NT 10.0; Win64; x64)告诉服务器你的浏览器或设备类型
    Accepttext/html,application/xhtml+xml告诉服务器你希望接收的数据类型
    Accept-Languagezh-CN,zh;q=0.9告诉服务器你希望返回的语言
    Refererhttps://www.google.com/告诉服务器你从哪个页面跳转过来
    Hostmovie.douban.com告诉服务器你要访问的域名
    Cookiesessionid=abc123用于身份验证(如登录状态)
    Connectionkeep-alive控制 TCP 连接是否保持
    Accept-Encodinggzip, deflate告诉服务器你支持的压缩方式


     

    注:本文转载自blog.csdn.net的惜茶的文章"https://blog.csdn.net/2301_79253162/article/details/143067399"。版权归原作者所有,此博客不拥有其著作权,亦不承担相应法律责任。如有侵权,请联系我们删除。
    复制链接
    复制链接
    相关推荐
    发表评论
    登录后才能发表评论和回复 注册

    / 登录

    评论记录:

    未查询到任何数据!
    回复评论:

    分类栏目

    后端 (14832) 前端 (14280) 移动开发 (3760) 编程语言 (3851) Java (3904) Python (3298) 人工智能 (10119) AIGC (2810) 大数据 (3499) 数据库 (3945) 数据结构与算法 (3757) 音视频 (2669) 云原生 (3145) 云平台 (2965) 前沿技术 (2993) 开源 (2160) 小程序 (2860) 运维 (2533) 服务器 (2698) 操作系统 (2325) 硬件开发 (2491) 嵌入式 (2955) 微软技术 (2769) 软件工程 (2056) 测试 (2865) 网络空间安全 (2948) 网络与通信 (2797) 用户体验设计 (2592) 学习和成长 (2593) 搜索 (2744) 开发工具 (7108) 游戏 (2829) HarmonyOS (2935) 区块链 (2782) 数学 (3112) 3C硬件 (2759) 资讯 (2909) Android (4709) iOS (1850) 代码人生 (3043) 阅读 (2841)

    热门文章

    103
    后端
    关于我们 隐私政策 免责声明 联系我们
    Copyright © 2020-2025 蚁人论坛 (iYenn.com) All Rights Reserved.
    Scroll to Top