开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

仅在新列中的列中显示不重复的字符(pandas)

在pandas中，可以使用unique()函数来获取一个Series或DataFrame列中的唯一值。该函数返回一个包含不重复值的数组。

例如，假设我们有一个名为df的DataFrame，其中包含一个名为column_name的列，我们想要获取该列中的唯一值，可以使用以下代码：

unique_values = df['column_name'].unique()

unique_values将是一个包含column_name列中所有不重复值的数组。

在pandas中，还可以使用drop_duplicates()函数来删除DataFrame中的重复行。该函数返回一个新的DataFrame，其中不包含重复行。

例如，假设我们有一个名为df的DataFrame，我们想要删除其中的重复行，可以使用以下代码：

df_no_duplicates = df.drop_duplicates()

df_no_duplicates将是一个新的DataFrame，其中不包含重复行。

pandas是一个强大的数据处理和分析工具，广泛应用于数据科学、机器学习和数据工程等领域。它提供了丰富的数据结构和函数，可以方便地进行数据清洗、转换、分析和可视化。

推荐的腾讯云相关产品是TencentDB for MySQL，它是一种高性能、可扩展的关系型数据库服务。它提供了稳定可靠的数据库引擎，支持数据的存储和检索，并具有高可用性和可扩展性。您可以通过以下链接了解更多关于TencentDB for MySQL的信息：

TencentDB for MySQL产品介绍

请注意，以上答案仅供参考，具体的产品选择应根据实际需求和情况进行评估。

相关搜索:Pandas新列替换仅在新列中显示特定模式值 Pandas，基于重复计数的现有列创建新列从pandas中的列的切片创建新列列中的重复行- python/pandas 在Pandas Dataframe中删除列中的重复字符串将多个列映射到pandas中的新列如何根据pandas中的其他列添加新列？使用其他列的条件计算pandas中的新列分离列中的数据而不添加新列解开pandas数据帧并为重复的列创建新列使用两列中的值在Pandas中创建新列删除Pandas中列的列表中的重复项 Pandas - Vlookup -搜索列中的重复值创建Pandas列，显示其他两列的最大重复对数新列中的Pandas和AGG值逐行计算pandas dataframe中的新列根据pandas中的条件删除重复的列使用其他列的元素在pandas中创建新的列基于Pandas中的竖线分隔列创建多个新列使用pandas中其他列的值名创建新列

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

数据清洗要了命？这有一份手把手Python攻略

大数据文摘作品，转载要求见文末作者 | Michael Salmon 编译 | 颖子，江凡几个月前，我从网站indeed.com上抓取了招聘信息相关数据。相信很多同学都跟我做过同样的事情，想要收集不同城市的各种职位信息，然后建立一个模型来预测它们的相对薪水。然而在建立模型之前，我需要对抓取的信息进行初步的分析和清洗。本文将简要介绍我在清洗数据过程中使用的一些技巧。在这个任务中，我使用了python和配套的库，包括pandas和numpy。之前我已经成功地从美国不同的城市中抓取并保存了大量的招聘信息

03

一场pandas与SQL的巅峰大战（二）

上一篇文章一场pandas与SQL的巅峰大战中，我们对比了pandas与SQL常见的一些操作，我们的例子虽然是以MySQL为基础的，但换作其他的数据库软件，也一样适用。工作中除了MySQL，也经常会使用Hive SQL，相比之下，后者有更为强大和丰富的函数。本文将延续上一篇文章的风格和思路，继续对比Pandas与SQL，一方面是对上文的补充，另一方面也继续深入学习一下两种工具。方便起见，本文采用hive环境运行SQL，使用jupyter lab运行pandas。关于hive的安装和配置，我在之前的文章MacOS 下hive的安装与配置提到过，不过仅限于mac版本，供参考，如果你觉得比较困难，可以考虑使用postgreSQL，它比MySQL支持更多的函数(不过代码可能需要进行一定的改动)。而jupyter lab和jupyter notebook功能相同，界面相似，完全可以用notebook代替，我在Jupyter notebook使用技巧大全一文的最后有提到过二者的差别，感兴趣可以点击蓝字阅读。希望本文可以帮助各位读者在工作中进行pandas和Hive SQL的快速转换。本文涉及的部分hive 函数我在之前也有总结过，可以参考常用Hive函数的学习和总结。

02

最全面的Pandas的教程！没有之一!

Pandas 是基于 NumPy 的一个开源 Python 库，它被广泛用于快速分析数据，以及数据清洗和准备等工作。它的名字来源是由“ Panel data”（面板数据，一个计量经济学名词）两个单词拼成的。简单地说，你可以把 Pandas 看作是 Python 版的 Excel。

06

Pandas 25 式

原文的数据集是 bit.ly 短网址的，我这里在读取时出问题，不稳定，就帮大家下载下来，统一放到了 data 目录里。

00

（数据科学学习手札73）盘点pandas 1.0.0中的新特性

毫无疑问pandas已经成为基于Python的数据分析领域最重要的包，而就在最近，pandas终于迎来了1.0.0版本，对于pandas来说这是一次更新是里程碑式的，删除了很多旧版本中臃肿的功能，新增了一些崭新的特性，更加专注于高效实用的数据分析，本文就将针对pandas 1.0.0在笔者眼中比较重要的特性进行介绍，对于想要完整彻底了解新版本特性的朋友可以直接去看官方文档。

03

你一定不能错过的pandas 1.0.0四大新特性

毫无疑问pandas已经成为基于Python的数据分析领域最重要的包，而就在最近，pandas终于迎来了1.0.0版本，对于pandas来说这是一次更新是里程碑式的，删除了很多旧版本中臃肿的功能，新增了一些崭新的特性，更加专注于高效实用的数据分析，本文就将针对pandas 1.0.0在笔者眼中比较重要的特性进行介绍，对于想要完整彻底了解新版本特性的朋友可以直接去看官方文档。

02

数据分析篇 | PyCon 大咖亲传 pandas 25 式，长文建议收藏

Kevin Markham，数据科学讲师，2002 年，毕业于范德堡大学，计算机工程学士，2014 年，创建了 Data School，在线教授 Python 数据科学课程，他的课程主要包括 Pandas、Scikit-learn、Kaggle 竞赛数据科学、机器学习、自然语言处理等内容，迄今为止，浏览量在油管上已经超过 500 万次。

02

【呕心总结】python如何与mysql实现交互及常用sql语句

9 月初，我对 python 爬虫燃起兴趣，但爬取到的数据多通道实时同步读写用文件并不方便，于是开始用起mysql。这篇笔记，我将整理近一个月的实战中最常用到的 mysql 语句，同时也将涉及到如何在python3中与 mysql 实现数据交换。

02

Python探索性数据分析，这样才容易掌握

每个数据科学家都必须掌握的最重要的技能之一是正确研究数据的能力。彻底的探索性数据分析 (EDA， Exploratory Data Analysis) 是必要的，这是为了确保收集数据和执行分析的完整性。

03

python：Pandas里千万不能做的5件事

作为一个在进入数据分析领域之前干过开发的攻城狮，我看到我的同行以及新手在使用 Pandas 时会犯很多低级错误。

02

Pandas profiling 生成报告并部署的一站式解决方案

Pandas 库功能非常强大，特别有助于数据分析与处理，并为几乎所有操作提供了完整的解决方案。一种常见的Pandas函数是pandas describe。它向用户提供数据集所有特征的描述性统计摘要，尽管其比较常用，但它仍然没有提供足够详细的功能。

01

Python数据分析之数据预处理（数据清洗、数据合并、数据重塑、数据转换）学习笔记

参考链接： Python | pandas 合并merge，联接join和级联concat

00

通宵翻译Pandas官方文档，写了这份Excel万字肝货操作！

这篇万字长文，是黄同学辛苦为大家辛苦翻译排版。希望大家一定从头到尾学习，否则，可能会找不到操作的数据源。

02

Pandas数据处理3、DataFrame去重函数drop_duplicates()详解

Pandas数据处理3、DataFrame去重函数drop_duplicates()详解

03

Pandas专家总结：指定样式保存excel数据的 “N种” 姿势！

对于这个pandas对象，如果我们需要将其保存为excel，有那些操作方式呢？首先，最简单的，直接保存：

06

python数据分析笔记——数据加载与整理

Python数据分析——数据加载与整理总第47篇 ▼ （本文框架）数据加载导入文本数据 1、导入文本格式数据（CSV）的方法：方法一：使用pd.read_csv()，默认打开csv文件。 9、

08

python数据科学系列：pandas入门详细教程

前2篇分别系统性介绍了numpy和matplotlib的入门基本知识，今天本文自然是要对pandas进行入门详细介绍，通过本文你将系统性了解pandas为何会有数据分析界"瑞士军刀"的盛誉。

02

R练习50题 - 第一期

从这期开始，大猫课堂将会推出一个新的系列：R练习50题，目的是使用50道练习题让大家掌握常用的数据操作，例如寻找每组最大的N个观测等。本练习题来源于Renkun (github.com/renkun-ken/r-data-practice) 在Github上的共享，我们认为它包括了绝大多数实践中会遇到的问题，特别具有代表性。只可惜Renkun并没有提供答案，所以我们在这里提供我们的版本。

04

pandas基本用法（一）

该文介绍了pandas库的基本用法，包括读取csv文件、获取数据类型、选择数据行和列、处理缺失值以及使用set()函数去除重复值等操作。

08

职场办公|眼花缭乱的数据对比

例如：下面的表格中，A列是所有的自然保护地，B列是有遥感图的自然保护地，我的任务是需要找出哪些自然保护地是没有遥感图的。简单说，就是找出A列有，B列没有的单元格。

02

首次公开，用了三年的 pandas 速查表！

导读：Pandas 是一个强大的分析结构化数据的工具集，它的使用基础是 Numpy（提供高性能的矩阵运算），用于数据挖掘和数据分析，同时也提供数据清洗功能。

01

使用 Python 进行数据清洗的完整指南

如果你没有听过，那么请记住：数据清洗是数据科学工作流程的基础。机器学习模型会根据你提供的数据执行，混乱的数据会导致性能下降甚至错误的结果，而干净的数据是良好模型性能的先决条件。当然干净的数据并不意味着一直都有好的性能，模型的正确选择（剩余 20%）也很重要，但是没有干净的数据，即使是再强大的模型也无法达到预期的水平。

03

用Python执行SQL、Excel常见任务？10个方法全搞定！

数据从业者有许多工具可用于分割数据。有些人使用 Excel，有些人使用SQL，有些人使用Python。对于某些任务，使用 Python 的优点是显而易见的。以更快的速度处理更大的数据集。使用基于 Python 构建的开源机器学习库。你可以轻松导入和导出不同格式的数据。

02

数据分析与数据挖掘 - 07数据处理

Pandas是数据处理中非常常用的一个库，是数据分析师、AI的工程师们必用的一个库，对这个库是否能够熟练的应用，直接关系到我们是否能够把数据处理成我们想要的样子。Pandas是基于NumPy构建的，让以NumPy为中心的应用变得更加的简单，它专注于数据处理，这个库可以帮助数据分析、数据挖掘、算法等工程师岗位的人员轻松快速的解决处理预处理的问题。比如说数据类型的转换，缺失值的处理、描述性统计分析、数据汇总等等功能。它不仅仅包含各种数据处理的方法，也包含了从多种数据源中读取数据的方法，比如Excel、CSV等，这些我们后边会讲到，让我们首先从Pandas的数据类型开始学起。 Pandas一共包含了两种数据类型，分别是Series和DataFrame，我们先来学习一下Series类型。 Series类型就类似于一维数组对象，它是由一组数据以及一组与之相关的数据索引组成的，代码示例如下：

02

Python进阶之Pandas入门(三) 最重要的数据流操作

Pandas是数据分析中一个至关重要的库，它是大多数据项目的支柱。如果你想从事数据分析相关的职业，那么你要做的第一件事情就是学习Pandas。

02

数据科学 IPython 笔记本 7.1 Pandas

Series是一维数组对象，包含数据数组和相关的数据标签数组。数据可以是任何 NumPy 数据类型，标签是序列的索引。

02

Pandas全景透视：解锁数据科学的黄金钥匙

当许多人开始踏足数据分析领域时，他们常常会对选择何种工具感到迷茫。在这个充满各种选项的时代，为什么会有这么多人选择 Pandas 作为他们的数据分析工具呢？这个问题似乎简单，但背后涉及了许多关键因素。在探究这个问题之前，让我们先理解一下 Pandas 的背景和特点。

01

数据导入与预处理-课程总结-04~06章

数据经过采集后通常会被存储到Word、Excel、JSON等文件或数据库中，从而为后期的预处理工作做好数据储备。数据获取是数据预处理的第一步操作，主要是从不同的渠道中读取数据。Pandas支持CSV、TXT、Excel、JSON这几种格式文件、HTML表格的读取操作，另外Python可借助第三方库实现Word与PDF文件的读取操作。本章主要为大家介绍如何从多个渠道中获取数据，为预处理做好数据准备。

01

如何用 Python 执行常见的 Excel 和 SQL 任务

作者：ROGER HUANG 本文翻译自：http://code-love.com/2017/04/30/excel-sql-python/ 来源：https://www.jianshu.com/p/51bb7726231b 本教程的代码和数据可在 Github 资源库中找到。有关如何使用 Github 的更多信息，请参阅本指南。数据从业者有许多工具可用于分割数据。有些人使用 Excel，有些人使用SQL，有些人使用Python。对于某些任务，使用 Python 的优点是显而易见的。以更快的速度处理更大

06

数据整合与数据清洗

选择单列。可以直接用列名选择，也可以通过ix、iloc、loc方法进行选择行、列。

03

PySpark SQL——SQL和pd.DataFrame的结合体

昨日推文PySpark环境搭建和简介，今天开始介绍PySpark中的第一个重要组件SQL/DataFrame，实际上从名字便可看出这是关系型数据库SQL和pandas.DataFrame的结合体，功能也几乎恰是这样，所以如果具有良好的SQL基本功和熟练的pandas运用技巧，学习PySpark SQL会感到非常熟悉和舒适。

02

Pandas 秘籍：6~11

当以某种方式组合多个序列或数据帧时，在进行任何计算之前，数据的每个维度会首先自动在每个轴上对齐。轴的这种无声且自动的对齐会给初学者造成极大的困惑，但它为超级用户提供了极大的灵活性。本章将深入探讨索引对象，然后展示利用其自动对齐功能的各种秘籍。

01

了解数据分析

1.数据采集。它是我们的原材料，也是最 “接地气” 的部分，因为任何分析都要有数据源。

02

Python之数据规整化：清理、转换、合并、重塑

Python之数据规整化：清理、转换、合并、重塑 1. 合并数据集 pandas.merge可根据一个或者多个不同DataFrame中的行连接起来。 pandas.concat可以沿着一条轴将多个对象

06

MySQL 性能优化--优化数据库结构之优化数据大小

l 尽可能使用最效率(最小)的数据类型。比如，使用更小的整型以便于获取更小的表。相比INT，MEDIUMINT 通常是个更好的选择，因为MEDIUMINT列少使用25%的空间。

02

Pandas图鉴(二)：Series 和 Index

Pandas[1]是用Python分析数据的工业标准。只需敲几下键盘，就可以加载、过滤、重组和可视化数千兆字节的异质信息。它建立在NumPy库的基础上，借用了它的许多概念和语法约定，所以如果你对NumPy很熟悉，你会发现Pandas是一个相当熟悉的工具。即使你从未听说过NumPy，Pandas也可以让你在几乎没有编程背景的情况下轻松拿捏数据分析问题。

02

pandas的dropna方法_python中dropna函数

如果你的数据集包含空值, 则可以使用dropna()函数分析并删除数据集中的行/列。

02

Pandas数据分析之Series和DataFrame的基本操作

针对 Series 的重新索引操作重新索引指的是根据index参数重新进行排序。如果传入的索引值在数据里不存在，则不会报错，而是添加缺失值的新行。不想用缺失值，可以用 fill_value 参数指定填充值。

02

利用Python进行数据分析(8) pandas基础: Series和DataFrame的基本操作

针对 Series 的重新索引操作重新索引指的是根据index参数重新进行排序。如果传入的索引值在数据里不存在，则不会报错，而是添加缺失值的新行。不想用缺失值，可以用 fill_value 参数指定填充值。

02

Python数据分析实战基础 | 初识Pandas

这段时间和一些做数据分析的同学闲聊，我发现数据分析技能入门阶段存在一个普遍性的问题，很多凭着兴趣入坑的同学，都能够很快熟悉Python基础语法，然后不约而同的一头扎进《利用Python进行数据分析》这本经典之中，硬着头皮啃完之后，好像自己什么都会了一点，然而实际操作起来既不知从何操起，又漏洞百出。

03

一句Python，一句R︱数据的合并、分组、排序、翻转、集合

版权声明：博主原创文章，微信公众号：素质云笔记,转载请注明来源“素质云博客”，谢谢合作！！ https://blog.csdn.net/sinat_26917383/article/details/52293091

02

Python数据分析实战基础 | 初识Pandas

这段时间和一些做数据分析的同学闲聊，我发现数据分析技能入门阶段存在一个普遍性的问题，很多凭着兴趣入坑的同学，都能够很快熟悉Python基础语法，然后不约而同的一头扎进《利用Python进行数据分析》这本经典之中，硬着头皮啃完之后，好像自己什么都会了一点，然而实际操作起来既不知从何操起，又漏洞百出。

04

Python数据分析实战基础 | 初识Pandas

这段时间和一些做数据分析的同学闲聊，我发现数据分析技能入门阶段存在一个普遍性的问题，很多凭着兴趣入坑的同学，都能够很快熟悉Python基础语法，然后不约而同的一头扎进《利用Python进行数据分析》这本经典之中，硬着头皮啃完之后，好像自己什么都会了一点，然而实际操作起来既不知从何操起，又漏洞百出。

01

一文带你快速入门Python | 初识Pandas

这是Python数据分析实战基础的第一篇内容，主要是和Pandas来个简单的邂逅。已经熟练掌握Pandas的同学，可以加快手速滑动浏览或者直接略过本文。

00

Python数据分析实战基础 | 初识Pandas

这段时间和一些做数据分析的同学闲聊，我发现数据分析技能入门阶段存在一个普遍性的问题，很多凭着兴趣入坑的同学，都能够很快熟悉Python基础语法，然后不约而同的一头扎进《利用Python进行数据分析》这本经典之中，硬着头皮啃完之后，好像自己什么都会了一点，然而实际操作起来既不知从何操起，又漏洞百出。

02

好习惯！pandas 8 个常用的 option 设置

通过pandas的使用，我们经常要交互式地展示表格（dataframe）、分析表格。而表格的格式就显得尤为重要了，因为大部分时候如果我们直接展示表格，格式并不是很友好。

01

Python数据分析实战基础 | 初识Pandas

这段时间和一些做数据分析的同学闲聊，我发现数据分析技能入门阶段存在一个普遍性的问题，很多凭着兴趣入坑的同学，都能够很快熟悉Python基础语法，然后不约而同的一头扎进《利用Python进行数据分析》这本经典之中，硬着头皮啃完之后，好像自己什么都会了一点，然而实际操作起来既不知从何操起，又漏洞百出。

03

Pandas 2.2 中文官方教程和指南（四）

由于许多潜在的 pandas 用户对 SQL 有一定的了解，本页旨在提供使用 pandas 执行各种 SQL 操作的一些示例。

01

[数据清洗]- Pandas 清洗“脏”数据（二）

概要了解数据分析数据问题清洗数据整合代码了解数据在处理任何数据之前，我们的第一任务是理解数据以及数据是干什么用的。我们尝试去理解数据的列/行、记录、数据格式、语义错误、缺失的条目以及错误的格式，这样我们就可以大概了解数据分析之前要做哪些“清理”工作。本次我们需要一个 patient_heart_rate.csv （链接：https://pan.baidu.com/s/1geX8oYf 密码：odj0）的数据文件，这个数据很小，可以让我们一目了然。这个数据是 csv 格式。数据是描述不同个体在不

05

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭