python文本去重

问题描述:python如何批量对每一个excel文件进行去重? 大家好,小编来为大家解答以下问题,python去除重复字符,python文本去重函数,现在让我们一起来看看吧!

python多个文本组合后去除重复项

python文本去重的相关图片

01

去重

我们使用Pandas库的drop_duplicates(subset=None, keep=‘first’, inplace=False)功能来对Excel文件中的重复项进行删除。

其中,subset参数代表指定列标记,默认当每一条行记录完全相同时,才会认定为重复行;keep=‘’有‘first’、‘last’和‘False’,意思是删除重复行时,保留first还是last还是全部删除,默认参数是‘first’;inplace=‘’有True和Flase,意思是直接替换还是保留副本,默认值是Flase。

读取Excel

import pandas as pd。

df = pd.read_excel('全部.xlsx')。

选中列去重

df.drop_duplicates(['用户名称'])。

其中第2、3行的用户名称与第0、1行重复,所以被删除。

03

保存最后一个重复数据

df.drop_duplicates(['用户名称'],keep='last')。

04

保存Excel

df.to_excel('去重后.xlsx')。

02

批量获取Excel文件

在上面我们已经学会如何对单个Excel文件去重了,但是在读取文件名的时候,我们还是需要手动输入的,如果文件很多的话,我们要一个一个的输入,这不仅麻烦,而且也不符合自动化办公的名头。所以,我们就需要想办法取得该目录下的所有Excel文件。

这里我们用的是Pathlib库,取得该目录下所有的xlsx格式文件。

path = 'K:\自动化办公'。

python去除文本中重复的字符串的相关图片

python去除文本中重复的字符串

最简单的是,定义一个list(list可以装的元素数量应该是可以满足需求的,如果数据确实太高,考虑文件数量分组进行)

然后将所有文件的内容逐行读到这个list中,用list自带的去重方法listname=list(set(listname)),进行去重。

最后将整个List写入到d.txt中就可以了。

python去重(汉字一样,里面的编码不一样)?的相关图片

python去重(汉字一样,里面的编码不一样)?

你的数据都是一行一行的吗?

是的话这样试试

input = open("a.txt", "r").read()。

output = open("b.txt", "w+")。

patterns = []

for line in input.split("\n"):。

    if line not in patterns:。

        print line。

        patterns.append(line + "\n")。

for pattern in patterns:。

    output.write(pattern)。

output.close()

测试了下满足你的输入输出

的相关图片

这是一个字符串的全角和半角的问题,可以导入 unicodedata 中的 normalize 函数先把全角转换为半角,然后再用 set 对列表去重,参考代码如下:

from unicodedata import normalize。

list3=['热菜','凉菜','凉菜','硬菜']。

set(map(lambda s: normalize('NFKC', s), list3))。

输出:

{'硬菜', '热菜', '凉菜'}。

扩展:

“ NFKC”代表“Normalization Form KC [Compatibility Decomposition, followed by Canonical Composition]”,并将全角字符替换为半角字符,这些半角字符与Unicode等价。

原文地址:http://www.qianchusai.com/python%E6%96%87%E6%9C%AC%E5%8E%BB%E9%87%8D.html

v2ray安卓最新版,v2ray安卓客户端下载

v2ray安卓最新版,v2ray安卓客户端下载

小火箭不能识别vmess链接,ios小火箭vmess连上不能用

小火箭不能识别vmess链接,ios小火箭vmess连上不能用

形色各异的灯笼,形色各异的灯笼这样写有什么好处

形色各异的灯笼,形色各异的灯笼这样写有什么好处

aq8031航班动态,aq1038航班经停时间

aq8031航班动态,aq1038航班经停时间

放学后突然下雨了作文,放学后突然下雨了作文一年级的

放学后突然下雨了作文,放学后突然下雨了作文一年级的

facebook专用免费加速器,facebook专用免费加速器苹果手机

facebook专用免费加速器,facebook专用免费加速器苹果手机

成都市永远不发展北边,成都北边为什么不开发

成都市永远不发展北边,成都北边为什么不开发

fgo国服术呆准确时间,fgo术呆国服上线时间

fgo国服术呆准确时间,fgo术呆国服上线时间

六年级的日记一般要写多少字,六年级的日记一般要写多少字左右

六年级的日记一般要写多少字,六年级的日记一般要写多少字左右

小米路由变砖修复工具,小米路由器救砖强制恢复方法

小米路由变砖修复工具,小米路由器救砖强制恢复方法

三国志战略版功能性减伤规避攻略 - 完整机制解析与实战技巧 三国志战略版6级地建设攻略 - 资源需求与时间规划详解 三国志定军山之战 - 黄忠斩夏侯渊的经典战役 三国志战略版工坊分配攻略 - 最优资源分配方案 三国志战略版声望上限 - 完整攻略与等级详解 三国志战略版虎杖武将攻略大全 - 技能解析与阵容搭配指南 三国志战略版陆逊灼烧状态详解 - 火烧连营战法攻略 三国志战略版打地势力值计算器 - 最全势力值攻略指南 三国志战略版灼烧伤害攻略 - 灼烧流武将搭配与战法解析 三国志战略版战法冲突详解 - 完美解决战法搭配问题 三国志战略版必中攻略 - 必中技能与武将详解 三国志战略版先锋测试服申请指南 - 官方申请教程 三国志战略版体验服 - 提前体验最新游戏内容 三国志战略版张昭兵锋攻略 - 技能解析与阵容搭配 三国志战略版乐府有必要建造吗?深度分析攻略 - 三国志战略版攻略站 三国志战略版巴蜀篇地图 - 完整战略指南 三国志战略版拔寨攻略 - 最新技巧与队伍配置指南 三国志战略版关妹一速攻略 - 关银屏速度流玩法详解 三国志战略版地级势力值详解 - 完整攻略指南 三国志战略版策书点数攻略 - 获取方法与使用技巧 三国志战略版马超适合谁 - 马超最佳搭配武将推荐 | 三国志战略版攻略 三国志战略版免费测试服 - 立即下载体验最新版本 三国志战略版拔城时间攻略 - 最全攻城时间表 三国志战略版冲突叠加机制详解 - 游戏攻略指南 三国志战略版空地等级详解 - 全攻略指南 三国志战略版虎帐可以建几个 - 虎帐建造数量详解 三国志战略版兵锋和强攻战术攻略 - 完整指南 三国志战略版兵锋单体攻略大全 - 技能解析与实战技巧 三国志战略版军屯有必要吗?深度解析军屯系统价值与策略 三国志战略版巴蜀城池攻略 - 全面解析巴蜀地区战略要地