22306班
未读
31.5月9日 临时使用jieba版
本项目预期结果: 步骤一:导入评论数据 在5月6日课程中,我们已经获取了B站视频的前200条热门评论。 我们利用之前课程结果“B站评论.json”。 我们首先实现读取json文件内容: import json
with open('B站评论.json', 'r', encoding='utf-8')
22306班
未读
29.5月8日 项目: 实现分词
分词 什么是分词 分词(Tokenization)是自然语言处理(NLP)中的一个基本步骤,它涉及将文本数据分解成更小的单元,通常是单词、短语或其他有意义的元素,这些单元被称作“词元”(tokens)。分词的目的是让计算机能够更好地理解和处理文本信息。以下是分词的一些关键点: 文本分解:将文本字符串