22306班
未读
9. 10月10日 天气预测-1.爬虫
9. 10月10日 天气预测-1.爬虫 数据来源 做机器学习我们需要尽量多和准确的数据,本次实例从www.meteomanz.com获取免费的天气数据 分析数据源网址规则 我们访问上一步的网站,可以发现有选择城市和时间的接口(PS:右上角的链接可以切换成英文) 这个就是我们要取到的数据了的地址,接下
22306班
未读
39.6月3日 综合项目:ubuntu计划任务实现UP主粉丝增量分析
在之前的项目中,我们完成了UP主全数据爬取、基础数据分析、UP主选题分析、受众播赞比分析、视频封面画像拼图展示等。 相较于市面上的成熟商用网站,目前还欠缺一个重要功能,就是记录并分析UP主的粉丝增量数据。 有了这个数据,就可以更好的分析热点话题,新视频受众认可度等。对UP主的选题提供清晰的思路。 由
22306班
未读
37.5月29日 综合项目:爬取并分析知名B站UP主-2
火烧云数据-B站数据分析平台-B站营销增长 (hsydata.com) 没时间,未完成,需修改 以下代码跑不了 只是关键点参考 import pandas as pd
from collections import Counter
import ast
import matplotlib.pyplo
22306班
未读
36.5月22日 综合项目:爬取并分析知名B站UP主-1
综合项目:爬取并分析知名B站UP主-1 本项目为综合项目,本课内容主要实现: 对某up主的所有视频数据进行爬取 得到链接、标题、观看数量、点赞数、投币数、标签、封面图 存储到csv文件供后续分析 基本框架 本次以“百大UP”小约翰可汗的视频为例:https://space.bilibili.com/
22306班
未读
类似案例:DrissionPage实现爬取51job
类似案例:DrissionPage实现爬取51job 逻辑与之前项目相似,不再赘述。 以下是基础代码框架
from DrissionPage import WebPage
from DrissionPage import ChromiumOptions
import time
path = r'
22306班
未读
32.5月15日 项目:使用DrissionPage爬取Boss直聘
本项目预期结果: 使用DrissionPage爬取Boss直聘 之前库的缺点和局限性 requests库 requests库效率很高,但有明显缺点: 需要手动处理heads和cookies 难以应对各个网站的反爬机制 获取网页元素的
22306班
未读
28.5月6日 项目: 登录B站爬取推荐和评论
上一节课中,我们简单的介绍了selenium库的使用。 项目:爬取B站首页推荐内容 准备活动 from selenium import webdriver
from selenium.webdriver.common.by import By
import time
browser = webdri
22306班
未读
27.4月29日 项目: selenium库实现爬虫,爬B站
selenium库 Selenium是一个用于Web应用程序测试的工具。Selenium测试可以运行在多种浏览器上,包括但不限于Chrome、Firefox、Safari和Internet Explorer。 注意:selenium 库原本设计是应用在网页测试上的。 当下,各种网站的反爬虫手段愈发高
22306班
未读
9.3月7日 阶段复习
ubuntu环境 注意虚拟机克隆到D盘 真机设置网卡 虚拟机设置网卡 安装ssh sudo apt install ssh 真机通过xshell连接虚拟机 后续操作通过xshell 进行 mysql数据库 5.2月28日 mysql环境部署 请创建数据库“my_db” 并创建表 班级 姓名 期中语文
22306班
未读
8.3月6日 项目:学生考试成绩—数据储存
上节课完成了对单个班级成绩的爬取,本次任务为爬取多个班级的期中期末成绩。 并存储到excel和数据库中。 为,下一次课的成绩分析做预备。 数据爬取 爬取多个班级 class_list=['22301','22302','22303','22304','22305','22306']
for cla