22036

22306班未读

项目：对招聘数据进行分析和可视化处理-技能词云依旧在之前作业的基础上，完成岗位技能分析。将结果进行词云可视化。效果如图。并为后续项目分析做准备。模块引入 import pandas as pd from collections import Counter import ast import

python 22036 wordcloud 2024-05-22

22306班未读

类似案例：DrissionPage实现爬取51job 逻辑与之前项目相似，不再赘述。以下是基础代码框架 from DrissionPage import WebPage from DrissionPage import ChromiumOptions import time path = r'

22306班未读

项目：对招聘数据进行分析和可视化处理-工资数据目标是在上节课爬虫基础上，利用爬取的csv格式文件中的数据进行工资数据分析。效果图：附加：饼图呈现“岗位所在行业（前10）” 步骤一：导入必要的库 import pandas as pd import matplotlib.pyplot as pl

22306班未读

本项目预期结果：使用DrissionPage爬取Boss直聘之前库的缺点和局限性 requests库 requests库效率很高，但有明显缺点：需要手动处理heads和cookies 难以应对各个网站的反爬机制获取网页元素的

22306班未读

31.5月9日临时使用jieba版

本项目预期结果：步骤一：导入评论数据在5月6日课程中，我们已经获取了B站视频的前200条热门评论。我们利用之前课程结果“B站评论.json”。我们首先实现读取json文件内容： import json with open('B站评论.json', 'r', encoding='utf-8')

22306班未读

本项目预期结果：项目：利用hanlp实现热门评论内容分词并绘制词云利用上节课简易的框架 import hanlp tok = hanlp.load(hanlp.pretrained.tok.COARSE_ELECTRA_SMALL_ZH) r=tok("你好，我是现代职业技术学校学生&quo

22306班未读

29.5月8日项目：实现分词

分词什么是分词分词（Tokenization）是自然语言处理（NLP）中的一个基本步骤，它涉及将文本数据分解成更小的单元，通常是单词、短语或其他有意义的元素，这些单元被称作“词元”（tokens）。分词的目的是让计算机能够更好地理解和处理文本信息。以下是分词的一些关键点：文本分解：将文本字符串

22306班未读

上一节课中，我们简单的介绍了selenium库的使用。项目：爬取B站首页推荐内容准备活动 from selenium import webdriver from selenium.webdriver.common.by import By import time browser = webdri

22306班未读

selenium库 Selenium是一个用于Web应用程序测试的工具。Selenium测试可以运行在多种浏览器上，包括但不限于Chrome、Firefox、Safari和Internet Explorer。注意：selenium 库原本设计是应用在网页测试上的。当下，各种网站的反爬虫手段愈发高

22306班未读

期中考试复习科目：数据分析基础考试、开卷、开网，考试时间 90 分钟。环境说明：使用环境需要已经安装了 mysql，vscode 环境准备：使用 xshell 连接 ubuntu 使用 qzks 用户连接数据库，密码 123 创建 my_data 数据库在 vscode 中建立“姓名+期

大数据 22036 2024-04-16