社区首页 >问答首页 >脚本来比较两个不同文件中的字符串

脚本来比较两个不同文件中的字符串
EN

Stack Overflow用户
提问于 2011-12-08 10:39:35
回答 4查看 2.2K关注 0票数 3

对于堆栈溢出和脚本编写,我是全新的。我在寻找帮助,开始在脚本,不一定要找人来写它。

以下是我所拥有的: File1.csv -包含一些信息,我只对MAC地址感兴趣。MAC有一些不同的信息,但也包含MAC地址。

我需要一个脚本来解析文件1.csv中的MAC地址,如果在file2.csv中显示任何 MAC地址,它将记录一个报告。

问题如下:

  1. 对我使用的语言有什么建议,最好是perl、python或bash?
  2. 有人能为所需的逻辑提出一些结构建议(即使只是在psuedo代码中)吗?

更新

使用@Adam Wagner的方法,我真的很接近!

代码语言:javascript
代码运行次数:0
复制
import csv
#Need to strip out NUL values from .csv file to make python happy
class FilteredFile(file):
        def next(self):
                return file.next(self).replace('\x00','').replace('\xff\xfe','')

reader = csv.reader(FilteredFile('wifi_clients.csv', 'rb'), delimiter=',', quotechar='|')
s1 = set(rec[0] for rec in reader)

inventory = csv.reader(FilteredFile('inventory.csv','rb'),delimiter=',')
s2 = set(rec[6] for rec in inventory)

shared_items = s1.intersection(s2)
print shared_items

这总是输出:(即使我医生.csv文件有匹配的MAC地址)

集合([])

csv文件的内容

wifi_clients.csv macNames,第一次看到,最后一次看到,Power,# BSSID,BSSID,探测BSSID inventory.csv 名称,制造商,设备类型,型号,序列号,IP地址,MAC地址,.

EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2011-12-08 10:50:10

下面是我要采取的方法:

  1. 迭代每个csv文件(python有一个方便的csv模块来实现这一点),捕获mac地址并将其放在一个集合中(每个文件一个)。再说一次,python有一个很好的内置set类型。模块,当然还有医生们.
  2. 接下来,您可以得到intersection of set1 (file1)和set2 (file2)。这将向您展示存在于一个和两个文件中的mac地址。

示例(在python中):

代码语言:javascript
代码运行次数:0
复制
s1 = set([1,2,3])  # You can add things incrementally with "s1.add(value)"
s2 = set([2,3,4])

shared_items = s1.intersection(s2)
print shared_items

其中产出:

代码语言:javascript
代码运行次数:0
复制
set([2, 3])

记录这些共享项可以使用从打印(然后将输出重定向到文件)、使用logging模块,到直接保存到文件的任何操作。

我不知道你在寻找什么深度的答案,但这应该会让你开始。

更新: CSV/Set使用示例

假设您有一个文件"foo.csv",它看起来如下所示:

代码语言:javascript
代码运行次数:0
复制
bob,123,127.0.0.1,mac-address-1
fred,124,127.0.0.1,mac-address-2

构建集合的最简单方法是这样的:

代码语言:javascript
代码运行次数:0
复制
import csv

set1 = set()
for record in csv.reader(open('foo.csv', 'rb')):
    user, machine_id, ip_address, mac_address = record
    set1.add(mac_address)
    # or simply "set1.add(record[3])", if you don't need the other fields.

显然,每个文件都需要这样的内容,因此您可能希望将其放入一个函数中,以使生活更容易。

最后,如果您想要进行不那么冗长但更酷的python-way,您还可以像这样构建这个集:

代码语言:javascript
代码运行次数:0
复制
csvfile = csv.reader(open('foo.csv', 'rb'))
set1 = set(rec[3] for rec in csvfile)   # Assuming mac-address is the 4th column.
票数 5
EN

Stack Overflow用户

发布于 2011-12-08 10:54:11

我强烈建议python这样做。

因为您没有给出csv文件的结构,所以我只能显示一个框架:

代码语言:javascript
代码运行次数:0
复制
def get_MAC_from_file1():
    ... parse the file to get MAC
    return a_MAC_list
def get_MAC_from_file2():
    ... parse the file to get MAC
    return a_MAC_list
def log_MACs():
    MAC_list1, MAC_list2 = get_MAC_from_file1(), get_MAC_from_file2()
    for a_MAC in MAC_list1:
        if a_MAC in MAC_list2:
            ...write your logs

如果数据集很大,则使用dict或set来代替列表和intersect操作。但是因为它是MAC地址,我想你的数据集没有那么大。因此,保持脚本易于阅读是最重要的。

票数 1
EN

Stack Overflow用户

发布于 2011-12-08 11:03:08

Awk是这方面的完美选择

代码语言:javascript
代码运行次数:0
复制
{
   mac = $1  # assuming the mac addresses are in the first column
   do_grep = "grep " mac " otherfilename" # we'll use grep to check if the mac address is in the other file
   do_grep | getline mac_in_other_file  # pipe the output of the grep command into a new variable
   close(do_grep)  # close the pipe
   if(mac_in_other_file != ""){     # if grep found the mac address in the other file
     print mac > "naughty_macs.log"  # append the mac address to the log file
   }
}

然后在第一个文件上运行它:awk -f logging_script.awk mac_list.txt

(这段代码未经测试,我不是最伟大的awk黑客,但它应该给出大致的想法)

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8435912

复制
相关文章
Excel每个单元格都统一加上(或减去)一个数
文章背景:处理Excel单元格数据时,有时需要在单元格区域内同时增加或减少某一数值,这里介绍两种操作方法。
Exploring
2022/08/10
1.8K0
[MySQL]更新时间(加上或者减去一段时间)
定义和用法 DATE_ADD() 函数向日期添加指定的时间间隔。 DATE_SUB() 函数向日期减少指定的时间间隔。 语法 DATE_ADD(date,INTERVAL expr type) DATE_SUB(date,INTERVAL expr type)
用户2353021
2020/05/11
3.9K0
[MySQL]更新时间(加上或者减去一段时间)
DataGridView列自适应宽度
来源:http://www.cnblogs.com/wolf-sun/p/3480104.html
跟着阿笨一起玩NET
2018/09/20
1.8K0
DataGridView列自适应宽度
Windows2003下列引导或系统启动驱动程序无法加载:packet
优化了下系统,重启出现了一个错误。 弹出应用程序: 服务控制管理器 : 在系统启动时至少有一个服务或驱动程序产生错误。详细信息,请使用事件查看器查看事件日志。 仔细查看了一下windows日志记录错误原因是windows启动的时候提示一项服务或者驱动出错,在windows的安全日志中找到了如下的描述:
zhaoJian.Net
2023/02/24
8000
数组或对象中的内容间隔显示
总结:间隔显示,不要使用for 循环,原因是for循环是同步,setTimeout是异步,同步执行完再执行异步。
tianyawhl
2019/11/07
4.3K0
根据数据源字段动态设置报表中的列数量以及列宽度
在报表系统中,我们通常会有这样的需求,就是由用户来决定报表中需要显示的数据,比如数据源中共有八列数据,用户可以自己选择在报表中显示哪些列,并且能够自动调整列的宽度,已铺满整个页面。本文就讲解一下Act
葡萄城控件
2018/01/10
4.9K0
根据数据源字段动态设置报表中的列数量以及列宽度
Ordering列以或更好性能
为减少数据库的存储空间,需要确保对列进行排序,通常最好先放置固定大小的列,然后再添加可变长度的列。
yzsDBA
2021/04/26
3180
OC中获取一串字符串的高度(宽度确定)或宽度(高度确定)
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u010105969/article/details/52937475
用户1451823
2018/09/13
2.6K0
Element Vue 框架的 Table 列宽度自适应解决方案
# 原理 请求获取数据后,遍历数据,动态渲染一个节点,获取节点的宽度,最后改变表格列宽度 # 核心代码 /** * 计算字符串宽度 * @param str * @returns {number} */ function getStrWidth (str) { if (!document.getElementById('str-width')) { document.getElementsByTagName('body')[0].insertAdjacentHTML('beforeend', '<s
cnguu
2020/10/23
2.9K0
按照A列进行分组并计算出B列每个分组的平均值,然后对B列内的每个元素减去分组平均值
前几天在Python星耀交流群有个叫【在下不才】的粉丝问了一个Pandas的问题,按照A列进行分组并计算出B列每个分组的平均值,然后对B列内的每个元素减去分组平均值,这里拿出来给大家分享下,一起学习。
前端皮皮
2022/08/17
3K0
按照A列进行分组并计算出B列每个分组的平均值,然后对B列内的每个元素减去分组平均值
给图片或文字加上鼠标悬浮时旋转动画
一个很简单的css即可实现图片或文字鼠标悬浮时旋转动画。这里就简单的说一下2d旋转。 首先用到 transform 属性,具体代码如下: transform:rotate(360deg); -ms-transform:rotate(360deg); /* IE 9 */ -moz-transform:rotate(360deg); /* Firefox */ -webkit-transform:rotate(360deg); /* Safari 和 Chrome */ -o-transform:
雨尘
2018/07/17
2.3K0
win10 uwp 如何修改 Flyout 的宽度或高度
在堆栈有小伙伴问如何修改 Flyout 的宽度,他看到宽度会使用第一个元素的大小而不是最大的
林德熙
2020/03/25
1.5K0
win10 uwp 如何修改 Flyout 的宽度或高度
最大宽度最小宽度
    css3又加入了min-width,min-height,max-with,max-height等属性
十月梦想
2018/08/29
3.1K0
7-标识列或自增长列
# 标识列 /* 又称为自增长列 含义:可以不用手动插入值,系统提供默认的序列值 特点: 1. 标识列必须和键搭配(主键,唯一,外键等) 2. 一个表中只能有一个标识列 3. 标识列的类型只能是数值型(整型+浮点型) */ # 创建表时,设置某列为标识列 DROP TABLE IF EXISTS tab_identify; CREATE TABLE tab_identify( id INT PRIMARY KEY AUTO_INCREMENT, NAME VARCHAR(20) ); TRUN
Ywrby
2022/10/27
5390
java/poi 调整Excel 列宽支持自适应中文字符宽度
apache/poi是apache旗下用于读写Microsoft Office 二进制文件和OOXML 格式文件的开源库。用它来进行excel文件的导出是很趁手的。 一般来说可以直接使用 Sheet.autoSizeColumn方法自动调整每列的宽度。但是遇到包含中文的列,autoSizeColumn方法计算的列宽是不正确的,算出的宽度不能完整显示中文内容。最近项目中就遇到了这个问题,于是参考网上的各类文章,自己实现了自动适应中文字符宽度的方法
10km
2022/09/16
3.1K1
pandas 导出 Excel 文件的时候自动列宽,自动加上边框
尝试过 xlrd、xlwt、openpyxl、xlwings、pandas 来处理 Excel,如果说除了读写 Excel,还要做数据分析,还是 pandas 最好用,大多数情况下,你根本不需要把数据插入数据库,再用 SQL 去做数据分析。
somenzz
2022/10/25
2.3K0
vue+element实现表格跨行或跨列合并
vue+element用于pc后台管理系统比较多,所以后台管理系统一般以处理数据为主,数据结构的复杂程度变高,相对应的前端展示成本也提高, 有些产品经理或许会要求表格跨行或跨列合并,如果你正在想怎么实现,那就接着往下看 最新封装了一个表格合并和编辑插件:vue-split-table,戳一戳 效果图
火狼1
2019/04/17
7.9K0
vue+element实现表格跨行或跨列合并
点击加载更多

相似问题

在VSCode中打开木星: TypeError:无法读取未定义的属性(读取'makeSettings')

14

文件移动/复制操作后无法读取的木星笔记本

116

无法发射木星笔记本

29

无法设置木星笔记本

12

我无法在我的木星笔记本上读取数据。

12
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文