比较多个字符串列返回不同的列

在数据处理和分析中，比较多个字符串列并返回不同的列是一个常见的需求。这通常涉及到数据清洗、数据匹配和数据转换等步骤。以下是一些基础概念和相关方法：

基础概念

字符串比较：比较两个字符串是否相同或部分相同。
集合操作：如并集、交集和差集，用于找出不同或相同的元素。
数据帧（DataFrame）：在数据分析中常用的数据结构，类似于表格，可以方便地进行列操作。

类型与应用场景

类型

完全匹配：检查两个字符串是否完全相同。
部分匹配：检查一个字符串是否包含另一个字符串的部分内容。
正则表达式匹配：使用正则表达式进行复杂的模式匹配。

应用场景

数据清洗：去除重复记录或不一致的数据。
数据验证：检查输入数据的格式和内容是否符合要求。
数据分析：在数据集中找出独特的记录或差异。

示例代码（Python + Pandas）

假设我们有一个包含多个字符串列的数据帧，我们想要找出哪些列在不同的行中有不同的值。

import pandas as pd

# 创建示例数据帧
data = {
    'A': ['foo', 'bar', 'baz'],
    'B': ['foo', 'bar', 'qux'],
    'C': ['foo', 'bar', 'baz']
}
df = pd.DataFrame(data)

# 找出哪些列在不同的行中有不同的值
diff_columns = []
for col in df.columns:
    if df[col].nunique() > 1:
        diff_columns.append(col)

print("不同的列:", diff_columns)

解释与解决方法

解释

nunique() 方法用于计算某一列中不同值的数量。
如果某一列的不同值数量大于1，说明这一列在不同的行中有不同的值。

解决方法

数据清洗：如果发现某些列包含不一致的数据，可以考虑进行数据清洗，去除或修正错误的记录。
数据标准化：对字符串进行标准化处理，例如统一大小写、去除空格等，以减少不一致的情况。
使用集合操作：可以使用集合操作来找出不同列之间的差异。

进一步优化

如果需要更复杂的比较逻辑，可以考虑使用正则表达式或自定义函数来进行字符串匹配。

import re

# 自定义比较函数
def custom_compare(row):
    if re.match(r'foo.*', row['A']) and not re.match(r'foo.*', row['B']):
        return 'A'
    elif re.match(r'bar.*', row['B']) and not re.match(r'bar.*', row['C']):
        return 'B'
    return None

# 应用自定义比较函数
df['diff'] = df.apply(custom_compare, axis=1)
print(df)

通过这种方式，可以根据具体的业务需求定制字符串比较逻辑，从而更灵活地处理数据。

希望这些信息对你有所帮助！如果有更多具体问题，欢迎继续提问。

比较多个字符串列返回不同的列

、、

我有一个包含四个字符串列的数据帧 col1 col2 col3 col4A. A. A. A.A. A. A. B. BA. A.

浏览 6提问于2021-09-16得票数 0

1回答

比较两个字符串和不同字符的变化大小写

、

我试图使用R将“主”字符串与字符串列表进行比较。基于这种比较，我希望字符串中的所有字符都不同于主字符串更改为小写的字符。例如:主字符串是"AGG"。与之比较的字符串列表是["ATT", "AGT"]。我想还["Att&qu

浏览 3提问于2022-06-24得票数 1

回答已采纳

1回答

.)>0和FIND_IN_SET(.)之间的差异

函数或类似的运算符搜索SET值：如果字符串str位于由N个子字符串组成的字符串列表strlist中，则返回范围为1到N的值。字符串列表是由由“，”字符分隔的子字符串组成的<e

浏览 0提问于2016-06-16得票数 0

回答已采纳

2回答

Pandas遍历行，将列值与列表中的字符串进行比较，从另一列返回值

、、、

目前，我正在尝试迭代数据框，将字符串列表中的每个值与数据框中某一列中的值进行比较。如果比较结果为真，则将同一行的不同列中的值附加到单独的列表中。== word: return appendList 问题是我不确定如何将列表中的

浏览 35提问于2019-03-10得票数 1

回答已采纳

2回答

按多值字符串列中不同值对SQL进行分组。

、、

(我希望根据具有多个值的字符串列中的不同值执行组。Row 1: ["a","b"]Row 3: ["

浏览 0提问于2019-03-25得票数 1

回答已采纳

1回答

SSRS中两个数据集中的IIf

、

我的项目中有两个数据集。1数据集返回字符串列。就像下面普拉文约瑟夫CMDBNetBiosName约瑟夫我需要比较数据集中的两列，如果两者是相同的，则需要在另一列中返回Yes，如果两者不相同，则返回No。

浏览 0提问于2017-02-23得票数 1

4回答

比较SQL数据库中的两个不同的字符串列

、、、

我有两列不同的字符串列，我想检查其中一列是否包含在另一列中，并创建第三列，其值为1或0(如果column2包含列1，则为1；否则为0)，例如：Spar I am Sparta 1如何在SQL中执行此字符串比较？

浏览 0提问于2015-01-06得票数 0

1回答

蜂巢中的字符串匹配

、

T1有列C1和所有字符串值，类似地，T2有列C2和所有字符串值。数据在C2中准确/完整，C1中的数据与C1近似匹配。如何比较这两个字符串列。C1和C2字段都有相同的数据，但是输入到这些表中的数据是不同的。现在，我如何比较蜂窝中两个不同表的两个字符串列呢?我需要在T1.C1=T2.C2

浏览 6提问于2022-05-09得票数 0

1回答

使用数值参数对varchar列执行查询时的意外索引扫描

我有一个具有如下模式的测试表： `id` int(11) NOT NULL AUTO_INCREMENT, KEY `idx_name` (`name`)下面是表中的行111222 || 2 | world |+----+--------+ 4 rows

浏览 0提问于2012-02-07得票数 6

回答已采纳

2回答

如何在最后一次出现时改变空格分隔符将字符串列拆分为两列

、、、

我正在尝试通过空格分隔符将python中的字符串列拆分为两个不同的列。我想知道我们是否可以根据最后一次出现的不同的空格分隔符来分割列。如果列值为"aa bb“，则生成的新列值应为"aa bb”和“cc”。如果列值为"dd (多个空格分隔符) ff"，则生成的新<

浏览 15提问于2022-08-30得票数 1

回答已采纳

2回答

Spark SQL -如何避免使用字符串聚合列进行基于排序的聚合

(STRING_COL2) Spark将使用sort aggregate，因为STRING_COL2是一个字符串列在大多数情况下，基于排序的聚合比基于散列的聚合要昂贵得多。在GROUP BY子句中指定字符串列不会强制基于排序的聚合。然而，与仅仅比较两个值相比，收集一组不同的值、对其进行排序并最终

浏览 32提问于2017-12-11得票数 6

1回答

如何按自然顺序比较sql中的两个字符串

、

我有个简短的问题。我需要按自然顺序比较SQL中的两个字符串。所以，如果我有一个像‘20091210’和‘20101213’这样的字符串，那么后者就会更大。字符串还可能包含阿尔法字符，因此‘Y4550’将大于‘Y 4500’。我尝试使用校验和系统函数将字符串转换为散列数字，但这并没有给出关于自然顺序的数字。除了制作CLR函数之外，您知道还有什么可以使用的吗？

浏览 2提问于2014-08-01得票数 1

回答已采纳

1回答

比较SSIS中条件分裂中的2个Guid

、、、

我正在SSIS中构建一个条件拆分，以确定一个行是新的还是更新的。我要比较的列之一是guid，它允许null。谢谢

浏览 0提问于2015-12-03得票数 1

回答已采纳

2回答

Linq在数组上使用Contains

、、

我正在尝试使用linq查询datatable，理想情况下，我想要做的是将字符串列与字符串数组进行比较，返回匹配的字符串列。提前干杯厘米

浏览 0提问于2011-10-07得票数 1

回答已采纳

3回答

App Engine，如何检查列表中的所有值是否都在数据存储中的字符串列表中

、

如果数据存储区中有一个字符串列表，其中包含以下值：如果字符串列表中的每个值都出现在列表中，那么如何将其与列表进行比较，以便只返回true？“a”、“b”将返回false“a”、“b”、“c”、“d”、“e”将返回true 仅使用GQL就可以做到这一点吗?或者我是否需要拉出字符串列表并对其进行循环？

浏览 3提问于2010-11-30得票数 0

1回答

配置单元:加入性能-字符串与整数

联接表的配置单元查询运行12+小时。将字符串列转换为int有意义吗？或者通常认为影响太小了？

浏览 0提问于2016-02-11得票数 1

1回答

在python和pandas中:编辑器正在为大型列表而苦苦挣扎，还有什么替代方案？

、、

我有一个字符串列表，可以与Excel文件中的特定列进行比较。my_list = ('he', 'she', 'it') df = pd.read_csv('large_table.csv') 现在，我将列表中的项与特定列的内容进行比较，并提取匹配的所有行： result= df.loc[df['Interesting_colum

浏览 15提问于2021-11-13得票数 0

3回答

根据列中的值在SQL中选择字符串列表中的项

、

我有一个SQL表，它有一个列(Grouped_Identifer)，该列有一个字符串列表。列表中的项目用逗号分隔。还有另一列(位置)有一个值。我想创建或返回一个列，我们称它为Position_Identifer，它包含Grouped_Identifer中与Position列中的值相对应的部分或项目。因此，我们从下表开始： ? 并希望最终得到一个如下所示的表： ? Grouped_Id

浏览 10提问于2020-08-04得票数 0

回答已采纳

6回答

如果字符串列表相同，则将它们拆分为多个子列表。

、、、

我想知道，在python中，如果字符串是同一个字符串，是否可以将字符串列表拆分为多个子列表。Purple']['Red','Red'] 我需要它能够用不同

浏览 2提问于2020-06-22得票数 1

回答已采纳

2回答

从DataTable获取不同的字符串列表

为了减少代码量，是否可以将其合并成一行--其中我将一个DataTable列转换为一个字符串列表，但我只想要该列表中的不同项(有多个列，因此有时列将有多个值，而其中没有)：var distinctColumn1 = (from distinct1 in column1List select distinct1).Distinct(); 上面的工作，但是额外

浏览 2提问于2017-01-24得票数 3

回答已采纳

点击加载更多