首页
学习
活动
专区
圈层
工具
发布

如何随机选择vcf文件中的变异位点

现在做群体基因组的论文大部分会公开自己论文分析中的变异检测结果,通常是vcf文件,我们自己可以把vcf文件下载下来试着复现论文中的内容,有时候vcf文件过大,每一步处理起来都会花费比较长的时间。...有时候就想把这个vcf文件缩小,随机选择一部分。 查了一下,没有找到现成的工具或者脚本。尝试自己写脚本,没有思路。...这个函数随机生成一个小于1的数,如果我们想要随机取vcf文件中的10%,就设置random.random()<0.1,符合这个条件就输出行。最后输出的行就是所有的行的10%左右。...运行 python randomSelectRowsFromVCF.py tiny.vcf tiny.out.vcf 1 123 四个位置参数分别是 输入文件 输出文件 随机选取的比例(0-100)

79310
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    如何使用Python选择性地删除文件夹中的文件?

    问题1 问题描述:在一个文件夹中,有着普通文件以及文件夹,那么我们如何做到删除全部文件夹而不删除文件呢? 如下图所示,我们想要删除test文件夹中的所有文件夹,而保留其他文件: ?...Version 1 看到这个问题的第一刻,我想到的是文件夹没有后缀名,其他文件有后缀名,而拥有后缀名则意味着文件名称里面会有.的存在,我们就可以利用这个差别,来区分两者,进而实现问题描述中的功能。...我们可以看到,test文件夹中的文件已经全部删除。 ? Version 2.0 但是,后来仔细一想,上面这种方法却存在一个非常大的问题,如果普通文件是没有后缀名,也就是文件名称中不存在....接着,我又发现了文件夹和普通文件的另外一个区别,也就是文件夹是可以使用os.chdir("file_name")这个命令的,而普通文件则显然不行,会出现异常。...问题2 问题描述:我们如何做到删除一个文件夹中的空白文件夹,而不删除其他文件呢? ? 可以看出,问题2是问题1的进阶版本,只需要在问题1的代码基础上,增加一个判断文件夹是否空白的语句即可。

    15.5K30

    【疑惑】如何从 Spark 的 DataFrame 中取出具体某一行?

    如何从 Spark 的 DataFrame 中取出具体某一行?...我们可以明确一个前提:Spark 中 DataFrame 是 RDD 的扩展,限于其分布式与弹性内存特性,我们没法直接进行类似 df.iloc(r, c) 的操作来取出其某一行。...但是现在我有个需求,分箱,具体来讲,需要『排序后遍历每一行及其邻居比如 i 与 i+j』,因此,我们必须能够获取数据的某一行! 不知道有没有高手有好的方法?我只想到了以下几招!...1/3排序后select再collect collect 是将 DataFrame 转换为数组放到内存中来。但是 Spark 处理的数据一般都很大,直接转为数组,会爆内存。...给每一行加索引列,从0开始计数,然后把矩阵转置,新的列名就用索引列来做。 之后再取第 i 个数,就 df(i.toString) 就行。 这个方法似乎靠谱。

    5.6K30

    每天打卡python面试题 - 在一行中捕获多个异常(块除外)

    https : //docs.python.org/tutorial/errors.html 您可以将异常分配给变量(这e很常见,但是,如果您需要长时间处理异常,或者您的IDE像我的一样,仅突出显示比该更大的选择...不赞成使用此用法,这是Python 2.5及更早版本中唯一可用的形式,如果您希望代码在Python 3中向前兼容,则应更新语法以使用新形式: import sys try: mainstuff...IDontLikeYouException, YouAreBeingMeanException): do_something() 因此,当您想pass在某些例外情况下使用suppress 从Python...处理程序仅处理在相应的try子句中发生的异常,而不处理同一try语句的其他处理程序中的异常。...相关链接: [一行捕获多个异常] https://stackoverflow.com/questions/6470428/catch-multiple-exceptions-in-one-line-except-block

    2.2K10

    如何从 Debian 系统中的 DEB 包中提取文件?

    有时候,您可能需要从 DEB 包中提取特定的文件,以便查看其内容、修改或进行其他操作。本文将详细介绍如何从 Debian 系统中的 DEB 包中提取文件,并提供相应的示例。...图片使用 dpkg 命令提取文件在 Debian 系统中,可以使用 dpkg 命令来管理软件包。该命令提供了 -x 选项,可以用于从 DEB 包中提取文件。...示例 2: 提取 DEB 包中的特定文件dpkg -x package.deb /path/to/extract/file.txt这条命令将提取 package.deb 中名为 file.txt 的文件...提取文件后,您可以对其进行任何所需的操作,如查看、编辑、移动或复制。结论使用 dpkg 命令可以方便地从 Debian 系统中的 DEB 包中提取文件。...您可以选择提取整个 DEB 包的内容或仅提取特定的文件。通过提取文件,您可以查看其内容、进行修改或执行其他操作。

    6.6K20

    在shell程序里如何从文件中获取第n行

    我一直在使用 head -n | tail -1,它可以做到这一点,但我一直想知道是否有一个Bash工具,专门从文件中提取一行(或一段行)。 所谓“规范”,我指的是一个主要功能就是这样做的程序。...答: 有一个可供测试的文件,内容如下: 使用 sed 命令,要打印第 20 行,可写为 sed -n '20'p file.txt sed -n '20p' file.txt 测试截图如下: 要打印第...8 到第 12 行,则可用命令 sed -n '8,12'p file.txt 如果要打印第8、9行和第12行,可用命令 sed -n '8p;9p;12p' file.txt 对于行数特大的文件...可采用类似如下命令 sed '5000000q;d' file.txt tail -n+5000000 file.txt | head -1 需要关注处理性能的伙伴可以在上述命令前加上 time 再对大文件进行测试对比

    3.6K20

    机器学习中如何选择分类器

    在机器学习中,分类器作用是在标记好类别的训练数据基础上判断一个新的观察样本所属的类别。分类器依据学习的方式可以分为非监督学习和监督学习。...在监督学习方式中,每个训练样本包括训练样本的特征和相对应的标签。...从另一个方面分析,若分类器在测试数据上能够取得好效果,那么说明分类器的泛化能力强。分类器的泛化和拟合是一个此消彼长的过程,泛化能力强的分类器拟合能力一般很弱,另外则反之。...分类函数的复杂度和训练数据的大小 训练数据的大小对于分类器的选择也是至关重要的,如果是一个简单的分类问题,那么拟合能力强泛化能力弱的分类器就可以通过很小的一部分训练数据来得到。...另外在实验中,也可以通过从输入数据中去除不相干的特征或者降低特征维数来提高分类器的性能。 4.

    2.4K80

    实用:如何将aop中的pointcut值从配置文件中读取

    我们都知道,java中的注解里面的值都是一个常量, 如: @Pointcut("execution(* com.demo.Serviceable+.*(..))")...但是我们又要实现这将aop中的切面值做成一个动态配置的,每个项目的值的都不一样的,该怎么办呢?...LogAdvice ()); return advisor; } } 这里面的 pointcut.property值来自于你的application.properties 等配置文件...这样,各项目只须要引用该jar,然后在配置文件中指定要拦截的pointcut就可以了。 ---- 大黄:本文主要为抛砖引玉,提供一个思路。...比如,我们定时器采用注解方式配置的时候,cron表达式也是注解里面的一个字符串常量,那么,我们能不能通过配置文件的方式来配置这个cron呢?原理都是一样的。

    27.6K41

    从技术角度分析如何选择灰度测试方式

    灰度测试对于大部分的技术童鞋都不陌生,是我们在做产品迭代时经常会出现的需求,具体来讲是一种在应用测试时常用的方法,它允许在生产环境中对新功能或更改进行控制从而实现有限的上线发布。...这里主要分享下我们在开展灰度测试时如何进行工具的选择和应该去重点关注的一些问题。...如何选择灰度测试形式?灰度测试实现的方式有很多,因此可供我们选择的形式或工具也比较多,有些可能是企业直接设计的模式有些是借助便捷化的工具进行管理。...4、Feature Flags是一款集"功能开关+ 灰度发布 + 远程配置 + ab测试 + 版本控制 + 持续交付 + 订阅管理 + 等等" 多个能力融为一体的技术,主要机制是允许开发人员在生产环境中启用或禁用新功能...你们都是如何实现灰度测试的?

    67910
    领券