22306班
未读
5.2月28日 mysql环境部署
由于机房环境,每次必须将真机连接虚拟机的网卡设置为IP自动获取 打开服务器后: 重启网卡,查看IP地址 打开“终端” 输入 sudo apt install ssh。安装SSH,用于远程连接 接下来在真机打开xshell,使用XSHELL 进行远程连接 我提供的虚拟机默认用户名:xiandai 密码
22306班
未读
4.2月26日 项目: 北京菜市场数据存储 (excel形式)
之前课程中我们将获取到的数据存储到了多个json文件中, 虽然完成了数据的存储,但数据分散,且不直观,也无法分析。 故本节课,将数据存储到excel中能更便于查看和分析。 本课使用数据集如下(就是上节课的代码下载的,只不过我下载的数据量比较大): 新发地34W条数据.zip openpyxl库的使用
22306班
未读
3.2月23日 项目:北京菜品市场数据存储(json形式)
上节课程中,通过程序爬取了“新发地”市场数据。 本课解决存储问题。 代码不够优化 获取到的数据没存储 数据不利于查看 数据存储 数据不存储,后续没法用。 较为常见的形式 json形式 excel形式 mysql数据库形式 hadoop分布式存储 以上各有特点。 json形式 简单,适用于数据量小的情
22306班
未读
2.2月21日 项目:北京菜品市场数据爬取
案例参考链接:新发地-价格行情 这个网站上有34万多条470多个品类的菜品价格数据!(2022年开始至今,宝藏网站) 现,我们需要分析北京市场菜品价格变化,首先我们需要把他“爬”下来。 什么是网络爬虫? 解释 网络爬虫是一种自动化程序,设计用来浏览互联网,并收集特定网站上的信息。它们可以按照预先定义
22306班
未读
1.2月19日课程介绍与学习方式
课程介绍 数据处理基础 纯应用课程 数据收集(爬虫) 数据处理 数据分析 数据可视化 期中考试目标:全校学生质量分析 期末考试目标:泰坦尼克机器学习项目 Linux 基础课程 做好大数据课程的环境准备工作 搭建各种应用 期中考试目标:搭建基础网站 期末考试目标:多应用搭建 大数据平台搭建与应用 ha
2023学年第二学期22306班授课记录
链接:具体授课文件 授课内容 大数据平台搭建与应用 数据处理 Linux操作系统 课程软件和环境 课程所需的软件和环境如下 各项软件 钉钉 无要求 VScode https://code.visualstudio.com/download# 需要的扩展插件: Chinese (Simplified)