22306班
未读
34.5月21日 项目:对招聘数据进行分析和可视化处理-技能词云
项目:对招聘数据进行分析和可视化处理-技能词云 依旧在之前作业的基础上,完成岗位技能分析。将结果进行词云可视化。 效果如图。 并为后续项目分析做准备。 模块引入 import pandas as pd
from collections import Counter
import ast
import
22306班
未读
类似案例:DrissionPage实现爬取51job
类似案例:DrissionPage实现爬取51job 逻辑与之前项目相似,不再赘述。 以下是基础代码框架
from DrissionPage import WebPage
from DrissionPage import ChromiumOptions
import time
path = r'
22306班
未读
33.5月20日 项目:对招聘数据进行分析和可视化处理-工资数据
项目:对招聘数据进行分析和可视化处理-工资数据 目标是在上节课爬虫基础上,利用爬取的csv格式文件中的数据进行工资数据分析。 效果图: 附加:饼图呈现“岗位所在行业(前10)” 步骤一:导入必要的库 import pandas as pd
import matplotlib.pyplot as pl
22306班
未读
32.5月15日 项目:使用DrissionPage爬取Boss直聘
本项目预期结果: 使用DrissionPage爬取Boss直聘 之前库的缺点和局限性 requests库 requests库效率很高,但有明显缺点: 需要手动处理heads和cookies 难以应对各个网站的反爬机制 获取网页元素的
22306班
未读
31.5月9日 临时使用jieba版
本项目预期结果: 步骤一:导入评论数据 在5月6日课程中,我们已经获取了B站视频的前200条热门评论。 我们利用之前课程结果“B站评论.json”。 我们首先实现读取json文件内容: import json
with open('B站评论.json', 'r', encoding='utf-8')
22306班
未读
30.5月8日 项目:利用hanlp实现热门评论内容分词并绘制词云
本项目预期结果: 项目:利用hanlp实现热门评论内容分词并绘制词云 利用上节课简易的框架 import hanlp
tok = hanlp.load(hanlp.pretrained.tok.COARSE_ELECTRA_SMALL_ZH)
r=tok("你好,我是现代职业技术学校学生&quo
22306班
未读
29.5月8日 项目: 实现分词
分词 什么是分词 分词(Tokenization)是自然语言处理(NLP)中的一个基本步骤,它涉及将文本数据分解成更小的单元,通常是单词、短语或其他有意义的元素,这些单元被称作“词元”(tokens)。分词的目的是让计算机能够更好地理解和处理文本信息。以下是分词的一些关键点: 文本分解:将文本字符串
22306班
未读
28.5月6日 项目: 登录B站爬取推荐和评论
上一节课中,我们简单的介绍了selenium库的使用。 项目:爬取B站首页推荐内容 准备活动 from selenium import webdriver
from selenium.webdriver.common.by import By
import time
browser = webdri
22306班
未读
27.4月29日 项目: selenium库实现爬虫,爬B站
selenium库 Selenium是一个用于Web应用程序测试的工具。Selenium测试可以运行在多种浏览器上,包括但不限于Chrome、Firefox、Safari和Internet Explorer。 注意:selenium 库原本设计是应用在网页测试上的。 当下,各种网站的反爬虫手段愈发高
22306班
未读
26.4月17日 期中考试复习—科目:数据分析基础
期中考试复习 科目:数据分析基础 考试、开卷、开网,考试时间 90 分钟。 环境说明: 使用环境需要已经安装了 mysql,vscode 环境准备: 使用 xshell 连接 ubuntu 使用 qzks 用户连接数据库,密码 123 创建 my_data 数据库 在 vscode 中建立“姓名+期