22306班
未读
7.3月4日 项目:学生考试成绩—爬取成绩
之前项目我们进行了简单的数据爬取,数据存储(json,excel,mysql),基本不涉及数据分析和数据处理 项目分析 本次项目,我们需完成我校学生期中期末考试成绩爬取。存储到我们本地数据库中,并对班级成绩,学生个人成绩进行分析。最终形成分析图表。 关于需要用户登录的网站的数据爬取: 网页请求是如何
22306班
未读
3.2月23日 项目:北京菜品市场数据存储(json形式)
上节课程中,通过程序爬取了“新发地”市场数据。 本课解决存储问题。 代码不够优化 获取到的数据没存储 数据不利于查看 数据存储 数据不存储,后续没法用。 较为常见的形式 json形式 excel形式 mysql数据库形式 hadoop分布式存储 以上各有特点。 json形式 简单,适用于数据量小的情
22306班
未读
2.2月21日 项目:北京菜品市场数据爬取
案例参考链接:新发地-价格行情 这个网站上有34万多条470多个品类的菜品价格数据!(2022年开始至今,宝藏网站) 现,我们需要分析北京市场菜品价格变化,首先我们需要把他“爬”下来。 什么是网络爬虫? 解释 网络爬虫是一种自动化程序,设计用来浏览互联网,并收集特定网站上的信息。它们可以按照预先定义