本文将介绍如何通过Core Data with CloudKit将公共数据库同步到本地,在本地创建Core Data数据库镜像。
和GEO数据库类似,ArrayExpress是属于EBI旗下的公共数据库,用于存放芯片和高通量测序的相关数据,网址如下
关于利用RNA-seq的数据进行免疫浸润的评价,我们在TIMER数据库介绍的时候提到过。基本上就是提供RNA-seq的数据。然后使用制定的算法来就可以获得每个样本免疫细胞的得分了。
单细胞测序技术是近几年来非常热门的话题。但在该领域中,仍然缺乏存储单细胞公共数据的平台,因此这些数据集的可访问性成为其有效使用的障碍。此外,通过外部单细胞数据进行自身数据的验证也是今后单细胞数据分析的一个重要趋势。前面一期我们介绍了单细胞测序公共数据库(上),今天,小编就基于上篇的基础,继续为大家介绍几款单细胞测序公共数据库。
作者:Zheng Wan 译者:raawaa 摘自:译言(www..yeeyan.org) 大数据时代,生物信息学数据库的发展、数据共享,以及技术资源的易于访问等特点已经显现。直至最近,这股开放性科
于数据分析而言,实战操作是最佳的学习方式。在自己没有测序数据的情况下,可以从公共数据库中寻找我们需要的数据集。最为广泛使用的公共数据库包括GEO, TCGA, Encode等等,这些数据库称得上包罗万象,囊括了各种组学的数据。在没有实际数据集的情况下,都可以上这些数据库来找一找。
随着业务越来越复杂,数据量越来越大,并发量越来越大,数据库的性能越来越低。好不容易找运维申请了两台机器,让DBA部署了几个实例,想把一些业务库拆分出来,却发现拆不出来,扩不了容,尴尬! 因为数据库强关联在一起,无法通过增加数据库实例扩容,就是一个耦合的典型案例。 场景还原 有一个公共用户数据库DB_USER,里面table_user存放了通用的用户数据: table_user (uid, name, passwd, …) 在数据量比较小,并发量比较小,业务还没有这么复杂的时候,为了提高资源利用率(程序员才没
之前介绍过一些关于生物学某一个方面的综合性数据库,例如 [[SNP是什么东西?#SNP 数据库]] 以及 [[Mesh-主题词查询数据库]]。在这些数据库里面可以分析多个不同的疾病和这个生物学特征的关系。那既然有这样的数据库。反过来也就会有某一个疾病和多个生物学特征关系的数据库。其中就有比如 [[malacards-疾病相关信息查询数据库]] 这样综合性疾病查询的数据库。今天来介绍一个和脑部疾病有关的综合性数据库 : BrainBase: https://ngdc.cncb.ac.cn/brainbase/index
今年4月,警方用一种以前未使用过的DNA技术解决了几十年前的谜团 ,金州杀手的身份。
对于大型的肿瘤公共测序数据集而言,其中最出名的肯定还是 TCGA 数据了。对于 TCGA 数据我们之前也做过基本的介绍。
起因是因为看到了曾老师的一篇推文:混合到同一个10X样品里面的多个细胞系如何注释,其中是关于复现一篇cancer research《Single-cell transcriptomic heterogeneity in invasive ductal and lobular breast cancer cells》的细胞分群结果,见下图:
随着业务越来越复杂,数据量越来越大,并发量越来越大,数据库的性能越来越低。好不容易找运维申请了两台机器,让DBA部署了几个实例,想把一些业务库拆分出来,却发现一个库里几百个表,拆不出来,扩不了容,尴尬!
ENCODE是Encyclopedia of DNA Elements的缩写,是由美国人类基因组研究中心NHGRI赞助的一项国际化的合作项目,通过整合DNA, RNA,蛋白质,表观修饰等多个层次的数据,旨在建立一个全面的人类基因组数据研究的数据库。
2022年10月29日,由深圳国家基因库和深圳华大生命科学研究院共同研发的时空组学数据库V1.0版本(STOmicsDB)在国家基因库生命大数据平台(CNGBdb)正式上线,致力于促进时空组学的数据探索和学术研究。
继承这个概念做java开发的同学应该都很熟悉了,继承指的是子类继承父类的特征和行为,使得子类对象(实例)具有父类的实例域和方法,或子类从父类继承方法,使得子类具有父类相同的行为。数据库设计的时候也是有继承关系的,在数据库设计方法论中继承有三种,分别是具体表继承(Concrete Table Inheritance)、单表继承(Single Table Inheritance)、类表继承(Class Table Inheritance)。我们实际设计中经常会不经意中使用到数据库到继承,下面分别介绍一下他们的概念:
点击标题下「大数据文摘」可快捷关注 什么是开放数据? 一个简单的回答是:互用性。互用性指的是不同系统和组织间协同工作 (协同操作) 的能力。在这里,它指的是协同操作或者混合不同数据集的能力。 我们采用「开放知识定义」来定义开放数据: 开放数据是一类可以被任何人免费使用、再利用、再分发的数据——在其限制上,顶多是要求署名和使用类似的协议再分发。 完整的「开放知识定义」对于这一定义给出了更为翔实的解释。这里总结出最关键的部分: 可获取性和可访问性:作品应当能够被完整获取,并且所需的花费应当不超过合理的重制
通过孟德尔随机化研究,可以基于GWAS的结果来推断不同表型之间的因果关系, 比如使用的很广泛的两样本MR分析
权限 所能实现的操作 分析 ANALYZE ANY 分析数据库中的任何表、簇或索引 审计 AUDIT ANY 审计数据库中的任何模式对象 AUDIT SYSTEM 启用与停用语句和特权的审计选项 簇 CREATE CLUSTER 在自有的模式中创建一个簇 CREATE ANY CLUSTER 在任何一个模式中创建一个簇;操作类似于CREATE ANY TABLE ALTER ANY CLUSTER 改变数据库中的任何一个簇 DROP ANY CLUSTER 删除数据库中的任何一个簇 数据库 ALT
基因转录的过程当中,基因由DNA转录成mRNA的过程受到很多因素的调控。其中就包括了转录因子的调控。转录因子调控的一个主要的过程是转录因子和基因启动子区进行结合进而来对其表达进行调控。由于每个转录因子都有自己的固定的识别序列,所以基于特定的识别序列,我们就可以了解每个转录因子都可能调控哪些基因。随着测序数据的发展,我们也可以通过cihp-seq来准确的了解转录因子的结合区域。同时可以通过RNA-seq来分析转录因子和结合基因之间是否存在共表达关系。之前的转录因子预测的数据库其实都是基于上面的原理来进行构建的。最近,随着单细胞测序数据的增多,我们也可以在单个细胞当中研究不同系统的调控情况。所以今天就给大家介绍一个纳入了单细胞测序数据的一个可以预测基因调控网络的数据库:GRNs[http://www.grndb.com/]
KnockTF(http://www.licpathway.net/KnockTF/search.php)数据库就是基于这个目的构建的数据库。这个数据库收录了目前公共数据库当中敲减该转录因子后做的表达谱(芯片、二代测序)的数据,进而来反映这个转录因子变化后对于基因表达的影响。
原文链接: Application of weighted gene co-expression network analysis to identify key modules and hub genes in oral squamous cell carcinoma tumorigenesis
利用一周多的时间,我们把最最基本的生信套路来讲解了一遍。正好前几天一个小伙伴拿了一篇相关文献在咨询问题。这里就拿这篇文献来总结一下我们目前写的这些东西。
Git 是一个开源的分布式版本控制系统,可以敏捷高效地管理代码,让项目代码支持同时存在多个不同的版本和分支,是程序员在项目开发中的必备工具。
整个5-6月份发表了近100篇数据库文章,去掉一些其他物种的以及植物方面的数据库,最后剩下了一下这些数据库。(数据库检索方式主要还是基于我们之前发表的数据库的脚本,可能会有一些遗漏)。
TCGA有自己的一批工具,ICGC也有自己的网站,但好的资源都是要整合起来,整合越多越好(虽然事实不一定如此,但有这个想法的人不少),用着才更方便。这就靠今天介绍的UCSC XENA来实现了。
组会课题组的博士后分享了一篇nature文章,发表于2019年6月,题目是:CD24 signalling through macrophage Siglec-10 is a target for cancer immunotherapy 利用了这个数据集加入自己的生物学故事,应该是大家感兴趣的数据挖掘。
3月5日,国务院总理李克强在十二届全国人大四次会议上作2016年政府工作报告时提到,当前中国发展正处于这样一个关键时期,必须培育壮大新动能,加快发展新经济。
Washu Epigenome Browser是一款基因组浏览器,相比UCSC等基因组浏览器,其不仅能够展示RNA_seq, chip_seq等二维信息,还可以展示Hi-C等三维基因组学数据分析结果,网址如下
也就是说,大概率上你感兴趣的疾病都会有现成的公共数据,你完全可以选择从你感兴趣的角度来对它进行分析。而不是跑一下各个标准代码,得到一个唾手可得的结论糊弄大家。科研的科研,教程是教程!
最近这段时间,相信好多人都在忙着写国自然标书,一晃2019年的2月份已经过去,今年只剩下10个月了,留给我们的时间不多啦(像不像导师或者主任开会时的讲话啊
这个研究的生存分析并没有使用TCGA等公共数据,但是仍然是证明了:DUSP16 levels were inversely associated with head and neck squamous cell carcinoma (HNSCC) patient and breast cancer patient survival.
网页抓取为企业带来了无限商机,能够帮助他们根据公共数据制定战略决策。不过,在着手考虑在日常业务运营中实施网页抓取之前,确定信息的价值至关重要。在这篇文章中,Oxylabs将围绕搜索引擎爬取、有用数据源、主要挑战和解决方案展开讨论。
如果把指标⽐喻成⼀棵树上的果实,那模型就是这棵⼤树的躯⼲,想让果实结得好,必须让树⼲变得粗壮。真实场景举例:
数据猿导读 恒丰银行探索采用大数据技术构建统一的企业级数据管理平台,重构数据仓库应用,减少数据重复加工与存储,促进信息管理应用的数据融合共享,提高数据处理总体效率,提升数据分析和应用创新能力,正逐步取得预期的成效。 本篇案例为数据猿推出的大型“金融大数据主题策划”活动(查看详情)第一部分的系列案例/征文;感谢 恒丰银行 的投递 作为整体活动的第二部分,2017年6月29日,由数据猿主办,互联网普惠金融研究院合办,中国信息通信研究院、大数据发展促进委员会、上海大数据联盟、首席数据官联盟协
前几天看到基因课的东哥提了一下kingfisher,一个看起来就是极度便利的公共测序数据下载工具。我非常感兴趣,但也确实没时间折腾,于是继续丢给师弟去看看(事实上,他肯定也有类似需求....)。结果如下,感觉不错。帮大伙踩坑测试,与大伙分享。- CJ - 陈程杰
Journal: Database: The Journal of Biological Databases and Curation
2024年3月12日,基于人工智能的蛋白质和其他生物系统设计领域的全球领先企业Basecamp Research宣布推出其全新的深度学习模型BaseFold,该模型能比其他人工智能工具(包括行业黄金标准AlphaFold2)更准确地预测大型复杂蛋白质的三维结构。这些数据最近发表在bioRxiv上。
图很简单,就是研究者自己感兴趣的基因是TIMP1,在39个前列腺癌病人里面的表达量差异情况。因为这些病人都取样不只是一个测序结果,可以看到如果是同一个病人的2个样品,通常呢这个TIMP1基因的上下调是一致的。而且绝大部分前列腺癌病人的肿瘤组织里面该基因的表达量都是下降的。
在研究一个基因之前,首先还是要了解这个基因的基础表达情况的。在之前的一些推送当中,我们介绍过一些关于基因表达情况查询的数据库
日前,克强总理主持召开的国务院常务会议通过了《关于促进大数据发展的行动纲要》,将大数据定位为推动创新创业及经济转型升级的战略性资源,明确政务信息及公共数据要互联共享进行开放,深化大数据的应用创新。值得注意的是,遵循习近平总书记没有信息安全就没有信息化的精神,最后特别强调了要强化保护隐私数据等的信息安全保障体系建设。 《纲要》的通过,标志着中央及产业界就政务大数据开放已经成为共识,政务数据作为最权威和最全面的数据其对社会经济发展的价值也受到广泛的认可和期待,政务数据的开放及大数据平台的形成趋势不可逆转。然
前面我们发布了 明码标价之普通转录组上游分析,马上就有粉丝提出了需求,是数据集GSE165752,希望我们帮忙走转录组上游分析拿到其表达量矩阵。 但是其实人家本来就是提供了表达量矩阵,链接是:http
本次分享的文献发表了一个网页数据库,把其它数据库(GEO, ArrayExpress, DDBJ, ENCODE等等)的表观数据(主要是ChIP-seq and DNase-seq)整合,主要是6个模式生物的数据,包括(human, mouse, rat, fruit fly, nematode, and budding yeast), 最后形成了:ChIP-Atlas (http://chip-atlas.org)
将大数据视为强化美国竞争力的关键因素之一,把大数据研究和生产计划提高到国家战略层面,并大力发展相关信息网络安全项目。
在WWDC 2019上,苹果为Core Data带了一项重大的更新——引入了NSPersistentCloudKitContainer。这意味着无需编写大量代码,使用Core Data with CloudKit可以让用户在他所有的苹果设备上无缝访问应用程序中的数据。
来自多种模式(组学、成像、临床终点)的生物标志物的使用——尽管在科学界有所增加——在很大程度上落后于将其用于患者筛查作为治疗方案决策支持的承诺。这部分是因为异构实验数据和公共数据的语义整合困难,以及理解相关生物功能的复杂性,这两者对于预测生物学在临床上开发更安全的药物和更有效的治疗至关重要。
1月12日,南通大学生殖医学研究院孙斐教授及其团队在《Human Molecular Genetics》期刊发表了人类精子发生过程中的单细胞ATAC测序最新进展,题为:Single cell ATAC-Seq reveals cell type-specific transcriptional regulation and unique chromatin accessibility in human spermatogenesis。
英文标题: ChIP-Atlas: a data-mining suite powered by full integration of public ChIP-seq data
但是同样的也带来了一个问题,就是常规分析已经引起不了大家的兴趣,没办法脱颖而出,发文章就很困难。虽然说可以去找其它分子,比如circRNA,lncRNA,miRNA,但最终仍然是差异分析,火山图,热图,区别就是多了一个靶基因。
领取专属 10元无门槛券
手把手带您无忧上云