首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Python编程实验五:文件的读写操作

Python编程实验五:文件的读写操作

作者头像
Francek Chen
发布于 2025-01-22 12:44:45
发布于 2025-01-22 12:44:45
20800
代码可运行
举报
运行总次数:0
代码可运行

一、实验目的与要求

(1)通过本次实验,学生应掌握与文件打开、关闭相关的函数,以及与读写操作相关的常用方法的使用; (2)理解基于文件的词频统计以及数据分析的基本思路,能根据问题需要灵活选择合适的数据结构; (3)综合应用所学知识实现对问题的编程求解; (4)按照实验题目要求独立正确地完成实验内容(编写、调试算法程序,提交程序清单及及相关实验数据与运行结果)

二、实验内容

请使用Python语言在Jupyter Notebook环境下编程,完成下列题目的要求:

1、实验5素材文件夹下的文件 data.txt 是一个来源于网上的技术信息资料。

问题1:用 Python 语言中文分词第三方库 jieba 对文件 data.txt 进行分词,并选择长度大于等于3个字符的关键词,写入文件 out1.txt , 每行一个关键词,各行的关键词不重复,输出顺序不做要求,例如: 人工智能 科幻小说 ……

问题2:对实验5素材文件夹下的文件 data.txt 进行分词,对长度不少于3个字符的关键词,统计出现的次数,按照出现次数由大到小的顺序输出到文件 out2.txt ,每行一个关键词及其出现次数,例如: 科学家:2 达特茅斯:1 ……

2、某班学生评选一等奖学金,学生的10门主干课成绩存在于实验5素材文件夹下文件 score.txt 中, 每行为一个学生的信息,分别记录了学生学号、姓名以及10门课成绩,格式如下:

1820161043 郑珉镐 68 66 83 77 56 73 61 69 66 78 1820161044 沈红伟 91 70 81 91 96 80 78 91 89 94 ……

从这些学生中选出奖学金候选人,条件是:①总成绩排名在前10名;②全部课程及格(成绩大于等于60)。

问题1:给出按总成绩从高到低排序的前10名学生名单,并写入文件 candid1.txt ,每行记录一个学生的信息,分别为学生学号、姓名以及10门课成绩。

问题2:读取文件 candid1.txt ,从中选出候选人,并将学号和姓名写入文件 candid2.txt 格式如下:

1010112161722张三 1010112161728李四 ......

实验素材下载地址:

链接:https://pan.quark.cn/s/f1bfbe457955 提取码:WhgA

三、主要程序清单和程序运行结果

第1题

1、实验5素材文件夹下的文件 data.txt 是一个来源于网上的技术信息资料。 问题1:用 Python 语言中文分词第三方库 jieba 对文件 data.txt 进行分词,并选择长度大于等于3个字符的关键词,写入文件 out1.txt , 每行一个关键词,各行的关键词不重复,输出顺序不做要求,例如: 人工智能 科幻小说 …… 问题2:对实验5素材文件夹下的文件 data.txt 进行分词,对长度不少于3个字符的关键词,统计出现的次数,按照出现次数由大到小的顺序输出到文件 out2.txt ,每行一个关键词及其出现次数,例如: 科学家:2 达特茅斯:1 ……

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import jieba

with open("data.txt", "r") as f:
    content = f.read()
words = set()
seg_list = jieba.cut(content)
for word in seg_list:
    if len(word) >= 3:
        words.add(word)
with open("out1.txt", "w") as f:
    for word in words:
        f.write(word + "\n")

from collections import Counter

with open("data.txt", "r") as f:
    content = f.read()
words = []
seg_list = jieba.cut(content)
for word in seg_list:
    if len(word) >= 3:
        words.append(word)
word_count = Counter(words)
sorted_word_count = sorted(word_count.items(), key=lambda x: x[1], reverse=True)
with open("out2.txt", "w") as f:
    for word, count in sorted_word_count:
        f.write(f"{word}:{count}\n")

使用了jieba库来进行文本处理,并将处理结果写入文件。

首先,打开一个名为 "data.txt" 的文件,并读取文件内容。然后使用 jieba.cut() 方法对文本进行分词,得到分词结果。接着,它遍历分词结果,并将长度大于等于3的词添加到一个名为 "words" 的集合中,并将这些词写入名为 "out1.txt" 的文件中。

接下来,它再次打开 "data.txt" 文件并读取内容,然后使用 jieba.cut() 方法对文本进行分词,得到分词结果。同样地,它筛选出长度大于等于3的词并将它们添加到名为 "words" 的列表中。然后使用 collections.Counter() 方法统计每个词出现的次数,将统计结果按词频排序,并将排序后的结果写入名为 "out2.txt" 的文件中。

运行结果:

……

……

第2题

2、某班学生评选一等奖学金,学生的10门主干课成绩存在于实验5素材文件夹下文件 score.txt 中, 每行为一个学生的信息,分别记录了学生学号、姓名以及10门课成绩,格式如下: 1820161043 郑珉镐 68 66 83 77 56 73 61 69 66 78 1820161044 沈红伟 91 70 81 91 96 80 78 91 89 94 …… 从这些学生中选出奖学金候选人,条件是:①总成绩排名在前10名;②全部课程及格(成绩大于等于60)。 问题1:给出按总成绩从高到低排序的前10名学生名单,并写入文件 candid1.txt ,每行记录一个学生的信息,分别为学生学号、姓名以及10门课成绩。 问题2:读取文件 candid1.txt ,从中选出候选人,并将学号和姓名写入文件 candid2.txt 格式如下: 1010112161722张三 1010112161728李四 ......

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
with open("score.txt", "r") as f:
    content = f.readlines()
students = []
for line in content:
    info = line.split()
    student_id = info[0]
    student_name = info[1]
    scores = list(map(int, info[2:]))
    total_score = sum(scores)
    students.append((student_id, student_name, scores, total_score))

sorted_students = sorted(students, key=lambda x: x[3], reverse=True)

with open("candid1.txt", "w") as f:
    for student in sorted_students[:10]:
        student_id, student_name, scores, _ = student
        f.write(f"{student_id} {student_name} {' '.join(map(str, scores))}\n")

with open("candid1.txt", "r") as f:
    content = f.readlines()
selected_students = []
for line in content:
    info = line.split()
    student_id = info[0]
    student_name = info[1]
    scores = list(map(int, info[2:]))
    if all(score >= 60 for score in scores):
        selected_students.append((student_id, student_name))

with open("candid2.txt", "w") as f:
    for student in selected_students:
        student_id, student_name = student
        f.write(f"{student_id} {student_name}\n")

这段代码首先打开名为 "score.txt" 的文件,读取文件内容并按行存储在列表 content 中。然后,它遍历 content 列表中的每一行,将每行按空格分割成一组信息,包括学生ID、学生姓名和各科成绩。成绩部分被转换为整数类型并计算总成绩,然后将学生的信息以元组形式存储在 students 列表中。

接着,代码对 students 列表中的学生信息根据总成绩进行降序排序,得到了 sorted_students 列表。

然后,代码打开名为 "candid1.txt" 的文件,将排名前10的学生信息写入文件中,每行包括学生ID、学生姓名和各科成绩。

接着,代码再次打开 "candid1.txt" 文件,读取文件内容并按行存储在列表 content 中。然后,它遍历 content 列表中的每一行,将每行按空格分割成一组信息,包括学生ID、学生姓名和各科成绩。然后判断该学生各科成绩是否都大于等于60分,如果是,则将该学生的学生ID和学生姓名以元组形式存储在 selected_students 列表中。

最后,代码将符合条件的学生信息写入名为 "candid2.txt" 的文件中,每行包括学生ID和学生姓名。

运行结果:

四、实验结果分析与体会

通过本次实验,掌握了与文件打开、关闭相关的函数,以及与读写操作相关的常用方法的使用;理解基于文件的词频统计以及数据分析的基本思路。在进行文件读写操作时,及时打开和关闭文件是非常重要的,特别是在写操作完成后,一定要确保文件被正确关闭,以避免数据丢失或损坏。在文件操作过程中,可能会遇到各种异常情况,比如文件不存在、权限问题等。因此,对于文件操作,充分的异常处理是必不可少的,这可以通过 try-except 语句来实现。

Python 提供了多种文件读写模式,包括 "r"(只读)、"w"(只写)、"a"(追加)、"r+"(读写)等。在选择文件模式时,需要根据具体的需求来决定使用哪种模式,以确保操作的正确性和安全性。在文件读写操作中,尤其是处理文本文件时,需要注意文件的编码格式。在打开文件时可以指定编码方式,以便正确地读取和写入文件内容。文件读写过程中,文件指针的位置是非常重要的。在读取文件内容或者进行写入操作时,需要注意文件指针的位置,以确保读写操作的准确性。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-08-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
全国计算机等级考试二级python及复习总结2020.9.7
encoding:59 #encoding ="utf-8"以UTF-8格式读取文件
用户7138673
2022/09/21
3460
全国计算机等级考试二级python及复习总结2020.9.7
程序设计基础课程设计
4.插入新成绩:从键盘输入一个新学生的成绩,将新成绩按照已排序的成绩顺序(从高到低)插入到数组a中。
Perianth
2024/06/24
5060
学生成绩管理系统(C语言)「建议收藏」
学生成绩管理系统,首先要初始化系统,开始一个新的学生成绩系统初始化记录学生姓名,学号,院系,然后输入学生各科成绩,数学,英语,语文成绩。记录完各课成绩以后,可查看学生平均成绩和是否及格,成绩查询其中有学号查询,姓名查询,院系查询,还有全部输出,可以清晰的看到及格人数,按照分数高低排列,最后还可以添加和删除学生成绩,或者更改学生成绩,避免人为录入成绩错误。
全栈程序员站长
2022/09/06
2.2K0
Python 词云生成
https://www.lfd.uci.edu/~gohlke/pythonlibs/
arcticfox
2019/06/26
4.3K0
Python 词云生成
【Python 第33课】 处理文件中的数据
我们已经知道了如何读取和写入文件。有了这两个操作文件的方法,再加上对文件内容的处理,就能写一些小程序,解决不少日常的数据处理工作。 比如我现在拿到一份文档,里面有某个班级里所有学生的平时作业成绩。因为每个人交作业的次数不一样,所以成绩的数目也不同,没交作业的时候就没有分。我现在需要统计每个学生的平时作业总得分。 记得我小的时候,经常有同学被老师喊去做统计分数这种“苦力”。现在电脑普及了,再这么干就太弱了。用python,几行代码就可以搞定。 看一下我们的文档里的数据: #-- scores.txt 刘备 2
Crossin先生
2018/04/16
1K0
【Python 第33课】 处理文件中的数据
学习使用Jieba1.Jieba2. 特点3.功能4.安装5.使用6.其他中文分词工具
1.Jieba 相信大多数知道NLP的人都知道什么是Jieba,但对于像我这样的新手而言,也仅限于知道而已,并没有学习过它,使用过它,打算用几天的时间来记录自己学习、使用Jieba的过程。 jieba是一款开源的中文分词工具 github ,“结巴”中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word s
JasonhavenDai
2018/04/11
1.4K0
学习使用Jieba1.Jieba2. 特点3.功能4.安装5.使用6.其他中文分词工具
C语言学生成绩管理系统(设计报告和全部源码)「建议收藏」
实现如下功能: 1)能够实现学生成绩信息的插入、删除和修改; 2)能够实现各种查询(分别根据学生学号、姓名、课程名称等); 3)能够实现按照考试成绩、总评成绩进行排序; 4)能够查询某门课程的最高分、最低分并输出相应学生信息; 5)能够查询某门课程的优秀率(90 分及以上)、不及格率;
全栈程序员站长
2022/09/06
4.1K0
C语言学生成绩管理系统(设计报告和全部源码)「建议收藏」
python jieba分词(结巴分词)、提取词,加载词,修改词频,定义词库
“结巴”中文分词:做最好的 Python 中文分词组件,分词模块jieba,它是python比较好用的分词模块, 支持中文简体,繁体分词,还支持自定义词库。 jieba的分词,提取关键词,自定义词语。 结巴分词的原理 这里写链接内容 一、 基于结巴分词进行分词与关键词提取 1、jieba.cut分词三种模式 jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for
学到老
2018/03/19
20.7K0
python jieba分词(结巴分词)、提取词,加载词,修改词频,定义词库
文本处理基本方法
在中文文本中,由于词与词之间没有明显的界限符,如英文中的空格,因此分词是中文自然语言处理的一个基础且重要的步骤。分词的准确性直接影响到后续的语言处理任务,如词性标注、句法分析等。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符。分词过程就是找到这样分界符的过程。
@小森
2024/03/24
1960
Python 阶段编程练习(二十三)
根据现实生活中的猜数字游戏的游戏规则,运用Python语言模拟实现猜数字游戏的的基本功能,请学员们参考真实的猜数字游戏规则和如下的程序运行效果图进行代码编写,以实现“数字猜猜猜”小游戏的基本功能。游戏规则介绍如下:
Zkeq
2022/05/18
3810
Python 阶段编程练习(二十三)
入门中文NLP必备干货:5分钟看懂“结巴”分词(Jieba)
导读:近年来,随着NLP技术的日益成熟,开源实现的分词工具越来越多,如Ansj、盘古分词等。在本文中,我们选取了Jieba进行介绍和案例展示,主要基于以下考虑:
IT阅读排行榜
2019/04/09
9.8K0
入门中文NLP必备干货:5分钟看懂“结巴”分词(Jieba)
C语言实现学生成绩管理系统设计
本系统有增加学生记录、修改学生记录、删除学生记录、按姓名查询学生记录、按C语言成绩对学生进行排序、退出系统6大功能。 能够对学生的姓名,学号,c语言成绩做相应的操作。 在检测到输入成绩大于55时,会自动加上5。
全栈程序员站长
2022/09/06
6560
C语言实现学生成绩管理系统设计
基于情感词典的情感分析方法
上节课我们介绍了基于SnowNLP快速进行评论数据情感分析的方法,本节课老shi将介绍基于情感词典的分析方法。基于情感词典的分析方法是情感挖掘分析方法中的一种,其普遍做法是:首先对文本进行情感词匹配,然后汇总情感词进行评分,最后得到文本的情感倾向。目前使用较多的情感词典主要有两种:一种是BosonNLP情感词典,另一种是知网推出的情感词典。
用户7569543
2020/12/08
9.3K3
基于Python的情感分析案例——知网情感词典
情感分析指的是对新闻报道、商品评论、电影影评等文本信息进行观点提取、主题分析、情感挖掘。情感分析常用于对某一篇新闻报道积极消极分析、淘宝商品评论情感打分、股评情感分析、电影评论情感挖掘。情感分析的内容包括:情感的持有者分析、态度持有者分析、态度类型分析(一系列类型如喜欢(like),讨厌(hate),珍视(value),渴望(desire)等;或着简单的加权极性如积极(positive),消极(negative)和中性(neutral)并可用具体的权重修饰)、态度的范围分析(包含每句话,某一段、或者全文)。因此,情感分析的目的可以分为:初级:文章的整体感情是积极/消极的;进阶:对文章的态度从1-5打分;高级:检测态度的目标,持有者和类型。
全栈程序员站长
2022/10/02
5.1K2
基于Python的情感分析案例——知网情感词典
Python程序员需要掌握的网络爬虫技术
当下是一个大数据的时代,各个行业都离不开数据的支持,因此,网络爬虫应运而生。编写网络爬虫当下最为火热的语言毫无疑问是Python,原因是,Python开发爬虫相对简单,功能库完善,易于学习。
小小詹同学
2018/07/24
7430
Python程序员需要掌握的网络爬虫技术
BosonNLP情感词典 评论情感分析[通俗易懂]
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/172431.html原文链接:https://javaforall.cn
全栈程序员站长
2022/09/23
1.8K0
Java 编程基础入门级超级完整版教程指南
Java 是由 Sun Microsystems 公司(后被 Oracle 收购)于 1995 年推出的高级编程语言,具有“一次编写,到处运行”(Write Once, Run Anywhere)的跨平台特性。Java 广泛应用于企业级开发、Android 应用、大数据处理等领域。
啦啦啦191
2025/06/07
3450
Java 编程基础入门级超级完整版教程指南
常见的文本分析大汇总
文本分析的核心是自然语言处理,本文只能说是冰山一角,但是对于日常挖掘有用的文本信息也还OK,但是如果想更深层次的挖掘文本信息,还是需要寻求专业算法工程师的帮助,例如NLP实验室的同学们~
HsuHeinrich
2023/08/10
4670
常见的文本分析大汇总
Jieba分词简介[通俗易懂]
将“入水”加到自定义词典user_dict.txt中,然后进行默认精确模式的分词:
全栈程序员站长
2022/08/31
1.9K0
【一文讲解深度学习】语言自然语言处理(NLP)第一篇
NLP(Nature Language Processing,自然语言处理)是计算机及人工智能领域的一个重要的子项目,它研究计算机如何处理、理解及应用人类语言。是人类在漫长的进化过程中形成的计算机语言复杂的符号等系统(类似C/Java的符号等系统)。以下是关于自然处理的常见定义:
苏州程序大白
2022/04/14
1.7K0
【一文讲解深度学习】语言自然语言处理(NLP)第一篇
相关推荐
全国计算机等级考试二级python及复习总结2020.9.7
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档