标签: 爬虫 | 现代董良

22306班未读

9. 10月10日天气预测-1.爬虫

9. 10月10日天气预测-1.爬虫数据来源做机器学习我们需要尽量多和准确的数据，本次实例从www.meteomanz.com获取免费的天气数据分析数据源网址规则我们访问上一步的网站，可以发现有选择城市和时间的接口(PS:右上角的链接可以切换成英文) 这个就是我们要取到的数据了的地址，接下

爬虫 2024-10-10

22306班未读

在之前的项目中，我们完成了UP主全数据爬取、基础数据分析、UP主选题分析、受众播赞比分析、视频封面画像拼图展示等。相较于市面上的成熟商用网站，目前还欠缺一个重要功能，就是记录并分析UP主的粉丝增量数据。有了这个数据，就可以更好的分析热点话题，新视频受众认可度等。对UP主的选题提供清晰的思路。由

22306班未读

火烧云数据-B站数据分析平台-B站营销增长 (hsydata.com) 没时间，未完成，需修改以下代码跑不了只是关键点参考 import pandas as pd from collections import Counter import ast import matplotlib.pyplo

22306班未读

综合项目：爬取并分析知名B站UP主-1 本项目为综合项目，本课内容主要实现：对某up主的所有视频数据进行爬取得到链接、标题、观看数量、点赞数、投币数、标签、封面图存储到csv文件供后续分析基本框架本次以“百大UP”小约翰可汗的视频为例：https://space.bilibili.com/

22306班未读

类似案例：DrissionPage实现爬取51job 逻辑与之前项目相似，不再赘述。以下是基础代码框架 from DrissionPage import WebPage from DrissionPage import ChromiumOptions import time path = r'

22306班未读

本项目预期结果：使用DrissionPage爬取Boss直聘之前库的缺点和局限性 requests库 requests库效率很高，但有明显缺点：需要手动处理heads和cookies 难以应对各个网站的反爬机制获取网页元素的

22306班未读

上一节课中，我们简单的介绍了selenium库的使用。项目：爬取B站首页推荐内容准备活动 from selenium import webdriver from selenium.webdriver.common.by import By import time browser = webdri

22306班未读

selenium库 Selenium是一个用于Web应用程序测试的工具。Selenium测试可以运行在多种浏览器上，包括但不限于Chrome、Firefox、Safari和Internet Explorer。注意：selenium 库原本设计是应用在网页测试上的。当下，各种网站的反爬虫手段愈发高

22306班未读

9.3月7日阶段复习

ubuntu环境注意虚拟机克隆到D盘真机设置网卡虚拟机设置网卡安装ssh sudo apt install ssh 真机通过xshell连接虚拟机后续操作通过xshell 进行 mysql数据库 5.2月28日 mysql环境部署请创建数据库“my_db” 并创建表班级姓名期中语文

22306班未读

上节课完成了对单个班级成绩的爬取，本次任务为爬取多个班级的期中期末成绩。并存储到excel和数据库中。为，下一次课的成绩分析做预备。数据爬取爬取多个班级 class_list=['22301','22302','22303','22304','22305','22306'] for cla