研究人员用Smart-seq2建库方法得到的单细胞转录组数据经过QC后,留下了来自18名患者的5,902个细胞。...首先使用inferCNV可以分成2215个恶性细胞和3363个非恶性细胞 对进行3363个非恶性细胞表达矩阵分群,根据已知标记基因(自行搜索)的表达,注释并且找到B细胞,巨噬细胞,树突状细胞,肥大细胞,...重新看这个文章的时候,发现里面有这样的一个图表,如下: ? 上皮细胞的标记基因热图 上皮细胞的标记基因如上所示,它们居然表达量如此相关,而且恰好与inferCNV的恶性与否对应上。...当然了,如果你还卡在第一步安装R包,请看我昨天在生信菜鸟团的教程:有些R包是你的电脑操作系统缺东西,但也有一些不是 。 ?...inferCNV区分细胞恶性与否 当然了,inferCNV非常难,你很大概率上是搞不定的哈,但是我相信这篇文章肯定是有inferCNV结果,你可以直接使用即可。
下面就这个项目来说一说,工业缺陷检测在标注数据时需要注意的几个事项: 1、离得比较近的缺陷就合并在一个框里 以上两个图里的缺陷都是可以合并的,一是为了保持缺陷的完整性,同一个缺陷被标注成好多个,会给神经网络造成误解...2、尽量不要有太细长的目标 神经网络的卷积基本上都是3*3的,而且先验框anchor在设计宽高比时一般也是在1左右,回归非常细长的目标,需要比较大的感受野和宽高比,不一定能做得很好。...如图左边那块目标,可以合并一下,稍微标大一点,把长宽比例搞得居中一点。...有人会杠了,那我的目标就是小目标啊,小哥,我说了,另外还有很多trick的,不在本文讨论范围,打标签这个环节你要么打大点,要么不要打,或者把局部区域放大成大图,再打标签,不然送到模型里头,也是没用的。...YOLOv4网络结构图 4、不要标注特别不明显的特征 这一条相信都能理解,特征连人都认不出来,哪个网络都不好识别吧。像这种标注框,恐怕谁都不好认吧。
计算机视觉模型表现不佳的原因有很多,比如架构设计缺陷、数据集代表性不足、超参数选择失误等。但有一个很简单的原因却常常被人们忽略:图像的方向。...我写过很多有关计算机视觉和机器学习项目的内容,比如目标识别系统和人脸识别项目。我有一个开源的 Python 人脸识别软件库,算得上是 GitHub 上最受欢迎的十大机器学习库之一。...为什么这让很多 Python 计算机视觉应用表现不佳? Exif 元数据并非 jpeg 文件格式的原生部分。在 TIFF 文件格式使用了这种元数据之后,jpeg 文件格式才加入这种元数据。...这不可避免地导致人们在 GitHub 上报告问题,说他们使用的开源项目根本不行或模型不够准确。但事情的本质非常简单——他们输入了侧向甚至颠倒的图像!...做起来很简单,不过在网上很难找到能为所有方向正确执行旋转的示例代码。
但现在心态变了,如果遇到一个没有验证码的网站,我都会尽量抓得慢一点。毕竟都是搞编程的,你如果把人家抓急了,逼得他改网站,改完后自己还得跟着改,冤冤相报何时了?...对于这种验证码用神经网络可以达到很高的识别率,但训练耗时较长(如果有gpu会快很多),而且需要大量标注的样本。笔者用了2万个样本做训练,识别率能达到86%左右。...请求限制 即对请求速度有限制,或封禁的手段 伪封ip 为什么要加个“伪”字呢?...比如去年有段时间裁判文书网用了某数的waf,分析了将近一个月没有成果,但发现该网站还有个app,做得特别low,经过简单抓包逆向后成功拿到数据,而且数据还是json格式化后的,连解析都省了。...以上是暂时想到的一些经验,希望能有所帮助,同时也希望大家在抓数据的时候能够手留情别抓得太狠,如果把一个数据源抓废了对大家都不好,正好那句话说的,IT人何苦为难IT人。
但是如果说它真的能够拟合我们真实世界的所有情况,其实还差那么一点意思。这也就是说为什么我说,机器学习或者神经网络没有那么高深。...卷积神经网络开拓者Yann LeCun做了一个非常简单的卷积网络,去做手写数字的识别,也就是我们现在每个人初入机器学习,一定接触到的一个Mnist。...他们做了一个实验说,我训练一个非常简单的积卷神经网络,训练出来之后,我想看一看究竟学到了什么,大家都说它是黑箱,那我们打开看一下,到底学到了什么东西。...[1500282534574_4708_1500282534726.jpg] 第一层,他们发现,都是非常简单的直线,斜线,各种颜色,这些非常简单的纹理。...也是我认为非常重要的一个方向,甚至说能不能够改变我们未来的产业的格局,就是最后一点。
比如说这里有一个非常简单的循环神经网络模型,它的输入是X1、X2、X3、X4,每个输入都是一个向量,和传统卷积神经网络不同的地方就是它的输出部分或者影像量的那部分,h在这里,每个h不仅跟当前的位置输入有关...通过这些带有记忆单元的神经网络,就可以构建出自动对话的机器人。比如说这里我展示了一部分我们的机器人可以做的对话。 ?...为什么让电脑回答这样的问题非常非常难?首先我们的语言是非常复杂的,同样一个意思可以有多种问法。比如我们可以问奥巴马总统在哪里出生的?也可以问奥巴马总统出生地是哪里。...深度学习模型在很多问题上做得非常好,可是有时候我们会发现模型做得好,但其实并不知道它为什么做得好。或者我们的模型犯错了,但我们并不知道它为什么犯错,这就是可解释性的问题。...我们的机器学习还需要更多地去研究一些模型一些方法,让它能够对自己的行为做一些预测和分析、解释,当它做得不好的时候,它知道自己为什么做得不好,就像人一样,能够分析自己的错误。这是第一点。
Noam Brown 简单来说,目前看来我们提出的技术在 6 人局里也有很好的实战效果(表现超过人类)。我觉得多于 3 个玩家参与的游戏是确实有一定技术挑战的,但扑克这个领域里体现得不明显。...AI 会使用一个混合策略(对于不同的可能性采取不同的行动),而人类玩家倾向于单独使用某一种策略。所以局面复杂的时候人类玩家会觉得非常难以估计 AI 所处的状况,因为 AI 各种行为都做得出来。...以及,现在我们都知道了另一个用了神经网络的扑克 AI DeepStack 表现如何。如果回过头重新考虑一下,你们有可能用神经网络吗? Noam Brown 对,「冷扑大师」没有用到任何深度学习。...下面我列举几个原因说明为什么在这种比赛中 PIO 求解器一点都不好使: PIO 求解器需要有一个人类输入双方的信念分布。「冷扑大师」完全是靠自己判断这些信息的。...不过只要有人能够提出一个贸易协商的模型,我们这次的研究成果肯定可以用在里面。这也会是未来研究中的一个有意思的方向。 是的我们觉得做一个能运行在一般电脑和服务器上、然后稍微弱一点的版本是做得到的。
如果路况比较简单,行人、车辆很少,勉强可以用。复杂的路况就用不了。什么原因?非常简单,好多人总结出这个经验,行人或者司机都会有意无意破坏交通规则,包括外国人也一样,中国人更严重一点。...在语义空间处理就可以解决理解问题,但是这项工作是非常艰巨的。 介绍一项我们现在做的工作。人工神经网络为什么不能得到语义信息呢?人脑的神经网络为什么可以呢?...差别就在这里,我们现在用的人工神经网络太简单了,我们正想办法把脑神经网络的许多结构与功能加进去,我们这里只用了「稀疏发电」这一性质,就可以看出一些效果,人脸、大象或者鸟的轮廓,神经网络可以把它提取出来。...最远的在哪儿呢?右上角,图灵测试。大家对图灵测试有很多误解,其实图灵测试是开领域问答,很难!索菲亚做得怎么样?很糟糕。自然语言理解也在这里,复杂环境下的决策在偏左一点的地方,这也是很难的。...我建议不要用新词,用新词往往说不清,很麻烦,有的人说现在是弱人工智能,以后是强人工智能,也有人说现在叫增强智能(Augmented Intelligence)也是 AI……概念太多说不清,还是简单一点,
【这边文章主要讨论的问题】: 分类任务中为什么用交叉熵而不是平方差? hingeloss是什么?为什么用? SVM的基础内容 这里先介绍一下对SVM的部分基础知识,以及本文使用的算法符号。...SVM是支持向量机,用在分类任务上,一般是二分类任务,如果是多分类任务的话,就需要多个SVM进行集成; SVM中的两类样本的真是标签是**【+1】,【-1】**,而不是神经网络中的0和1。...你考80分怎么还比70分得到更大的损失。 【这也是分类问题为什么不使用平方损失的原因。因为回归的时候,要预测的是一个数值,高了低了都不好。...举个例子:假如一个样本的非常小,那么交叉熵的梯度就会非常大而sigmoid+平方损失的梯度却非常小。非常小的梯度意味着小的变化,如果使用sigmoid+平方损失作为损失函数,会让模型收敛的非常慢。...我个人感觉,如果尽可能地得分高的话,可能会造成一定程度的过拟合,模型不太会兼顾全部的样本。 Hinge loss感觉就会把更多的注意力放在没有分类分的很好的那些样本上,不会再注意的样本了。
首先,我要对这个架构做一个总体的概述,即这个架构是什么?然后我会开始讨论为何说这个架构是重要的,以及它是如何与未来的机器学习相关的,再然后,我会谈为什么我们不能马上在每个地方用到这些东西。...这看起来是极其平常的,但是对当前的神经网络来说,这实际上是一件非常困难的事情,因为神经网络需要学习出一个算法才能把这个工作做得足够好。...这件事神经网络可以做,但是会以更加统计的方式完成,而神经图灵机实际上可以像人类程序员一样去完成这个任务。 ? 好了,现在我们谈一下 bAbI 数据集以及为什么我们如此关注它。...bAbI 数据集本质上是一系列后面带有问题的故事,而且所有的问题都被设计成需要某种形式的推理能力才能回答。我这里有一个简单的例子——使用位置来进行推理。...当它可以把这个做得很好时,你再将长度增加到 10,然后再某一点,你达到了新的长度,比如说 20,然后在某一点你相当自信你可以将模型泛化,就像我们之前看到的,将复制序列的长度增大到 100 或者更大。
这个软件栈在代码方面实际上非常简单,有许多传感器随着时间的推移将数据流式传输到软件栈中,而我们只需要预测两个标量:车辆的方向盘转向和加速度,我们试图让它保持在车道内等等。...这需要大量的工作,大量的努力,而且你需要把它做得非常好。 这里只是想让大家了解为什么维护这个基础设施如此复杂。 首先,即使是数据标记也是一项艰巨而重要的任务。...或者你发现了这样的东西,然后标记员就困惑了,每个人都困惑了。现在我不得不修改标注说明了。这简直太疯狂了,那是什么鬼东西?为什么它会在侧面?我应该标注它吗?...如果他们做得不好,那么你的网络就不会很好地工作。 限速标志完全是一场灾难,我原以为它只是一个数字,也许我可以运行一些OCR或其他什么东西。...限速标志非常复杂,比如每小时60英里,如果你是一辆卡车,在下午6点以后,在星期天,我不知道,它很快就会变得像人工智能一样复杂。我该如何在我的神经网络中处理这个问题?我应该输出什么?
在这样的神经网络里面,它的每一个连续的单元都是非常简单、有条件的,这样才能起作用。我们收到一些简单的神经行为输入,这些输入通过一些计算得到输出,成为后续的神经元的输入。它就是这么一个非常简单的公式。...如今,数千层深的网络非常常见。这是个非常庞大非常巨大的系统,把这么一个系统训练出来,难度是非常大的。 有一点非常好的消息,我们现在有很强大的计算设施。...其实我们设计了许多方法来对付过拟合,比如神经网络有 dropout、early-stop 等。但有一个因素非常简单、非常有效,那就是用很大的数据。...但是总体上当我们逐渐往上的时候,它确实是不断在对对象进行抽象。我们现在认为这好像是深度学习为什么成功的关键因素之一。因为扁平神经网络能做很多深层神经网络能做的事,但是有一点它是做不到的。...比如说决策树就是一种逐层处理,这是非常典型的。决策树模型已经有五六十年的历史了,但是它为什么做不到深度神经网络这么好呢?我想答案很简单。
为什么全脑模拟和智能动力学少被提及呢?后两者和深度神经网络相比有何异同点?为什么深度神经网络比后两者的概念更火? 胡郁回答了笔者这个疑问。他说道,“现在利用大数据加上深度学习的方式是主流的方法。...用一两句话概括,后两者相比于深度神经网络最大的不同点和优势在于,采用智能动力学的方法能够更好地将人脑的思维方式和学习方法与电子计算机进行结合,从而实现小样本学习和迁移学习,后两者在这些方面会比较强一点。...这样的系统在处理复杂语义时非常脆弱,即使是非常简单的日常词汇,目前最先进的机器翻译系统也无法做到准确翻译。...所以,一方面我认为在大部分翻译领域,机器翻译已经做得不错了。现在,机器翻译做得不好的地方,可能是占比非常小的俚语,机器翻译的特点是没看到过就不会翻,对于一些非常复杂的特殊情况,翻译的效果可能会打折扣。...所以,从另外一个角度来看,翻译要求“信达雅”,人类在“达”和“雅”这两个方面还具有一定的优势。我不认为机器翻译将来就要完全取代人类,它只是帮大家解决大部分的比较简单的工作,而不是让人类最后都没饭吃。
虽然技术宅不怎么需要形象,不过,面子总也也还是要一点的,要让别人知道我曾经用很长很长的时间思考这么中二的问题,见面了都不好意思抬头打招呼。...总而言之,今天我们所见到的神经网络模型,是许多不同研究人员你一点我一点用了各种数学方法凑出来的,说官方一点,是集体智慧的结晶,而不是我想象中的,是生物学神经网络简化版的仿生产物。...别看上面就短短一句话呀,我敢说这应该是你能看到的对神经网络最简单直接的概括,借用现在电话推销很爱说的一句话,简直是“看到就是赚到”。...对,为什么说“纸上得来终觉浅”,因为当你真的去使用,你就会发现一个很严重的问题:我知道权值怎么更新,那,总得还有个初始值才能开始吧?...可是,这就是为什么很多同学会问,我看完了教材,感觉也学懂了,为什么真的要用了却总感觉对不上。 写书当然是要突出重点,可是到了应用技术,一条“一看就会”的小褶皱,到了新手这里没准就成了难倒英雄汉的大河。
图像在一个视频里也有非常复杂的语义,我们现在还做不到完全理解,因为目前图像识别还是比较简单,比如识别一个人,而理解一段视频里丰富的语义,计算机还做不到。...这样的系统在处理复杂语义时非常脆弱,即使是非常简单的日常词汇,目前最先进的机器翻译系统也无法做到准确翻译。...所以,我们希望机器来做,人来辅助,但这也不可能一蹴而就,需要分阶段来进行,本阶段可以让机器可以做得好一点,人来帮忙,经过迭代才有可能做好。...深度学习里有一个注意力机制,可以做一点简单的解释。 学习神经网络可以归纳出它是某种函数形式,这就具有了可解释性,但是机器现在肯定做不到,下一代人工智能也许能做得好一点。...NLP学术研究VS工业界 当前国内在自然语言处理学术研究的现状究竟如何?做得好和不好的点在哪里? “国内自然语言处理从研究角度平均水平我认为在国际上应该是在一线,在最好之列。”
三个案例说明:为什么需要把VC维做大 维度做得更高更细,分析才能做得更精细,效率才能够提高。 去年亚马逊的市值超过了沃尔玛,更多的人会觉得亚马逊超过沃尔玛是互联网颠覆传统企业的。...不是说还有更多的客户可以去圈,而是我可以做得更好。如果要让一家企业做得比竞争对手更好,就会把预算抢过来,就像亚马逊从沃尔玛那边抢过来一样。 ?...过去的奥卡姆原理在做神经网络的时候,为什么我们要把神经网络控制在三层以内?是因为那个年代的数据量不够。 ? 那个年代的数据不多,所以数据不足以支撑我们把数据做大。在数据量不大的时候,我们要化繁为简。...从这个原理我们会知道——为什么过去做的模型简单,为什么神经网络要深度学习?重点的原因就是现在数据量变大了。数据量变大了,模型的复杂度要和数据量成匹配,要相关。 ?...“从VALIANT引理来看,为什么牛顿提的是三大定律而不是三百三千定律?就是人的记忆是有局限的,人脑里面装不了大数据,所以人能产出的就是简单的模型。为什么说过去的算法也很简单?
我们的分工是我负责整体,还有决策树算法,BM和BAQ负责神经网络,两个学姐负责前期的数据工作。 于是我上网去找决策树算法,发现网上的人很多程序都不好,写的很不完整。...关联规则相关的股票预测,具体怎么做,我先在网上找了一些论文看,觉得做得都不够好,我有一些自己的思想,就写出来吧,因为是对自己学习的总结,也供大家参考。...我尝试了用BP神经网络来做,不过我把JVM的运行空间调到了1.5G,依然无法承受这个规模的数据,不过我觉得即使能用好一点的机器做了,意义并不大,因为BP神经网络本身是基于黑盒测试的技术,我们无法得知它是怎么预测到的最后的结果...那些发股票数据挖掘说什么BP神经网络,或者SVM在用XX方法挖掘效果非常明显,非常有效的本科生,硕士生,博士生,甚至教授们,你们这是在做学术么?...我实在不想说太多,因为我们的神经网络做得真的够糟,用户至少需要输入20几个浮点数才能进行一次预测,这实在很考验人的耐心,但是我们也很无奈,手里的信息实在有限,输入的麻烦没办法解决,而且神经网络出的结果平均误差也是较大的
领取专属 10元无门槛券
手把手带您无忧上云