首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

SQL 语法面试备忘录,建议收藏!

在这里,云朵君总结了MySQL的大多数查询语法,并将其写成备忘录的形式,希望这可以帮助读者轻松应对数据科学面试。这里强烈建议你收藏,在面试前可以快速找出以临时抱佛脚。...与MySQL等价的是LIMIT子句 SELECT column_names FROM table_name LIMIT offset, count; LIKE 在 WHERE 子句中用于搜索列中特定模式的运算符...◎ UNION 中的每个 SELECT 语句必须具有相同的列数 ◎ 列必须具有相似的数据类型 ◎ 每个 SELECT 语句中的列也必须按相同顺序排列 ◎ UNION运算符只选择不同的值,UNION ALL...返回数字列的总和 SELECT SUM (column_name) FROM table_name WHERE condition; 表连接查询 INNER JOIN 返回在两个表中具有匹配值的记录...table2 ON table1.column_name=table2.column_name; FULL (OUTER) JOIN 在左表或右表中匹配时返回所有记录 SELECT column_names

1.2K50

一文深入了解DeepSeek-R1:模型架构

这些表示中的每一个通常都保留与输入相同的隐藏维度,从而导致 Q、K、V 具有 (input_sequence_length×2000) 的形状。 MLA 层的输入是 h_t ​。...这些表示中的每一个通常都保留与输入相同的隐藏维度,从而导致 Q、K、V 具有 (input_sequence_length×2000) 的形状。...高效学习— 专家专注于数据的不同方面,从而提高泛化能力。 计算节省— 由于每个 token 仅使用专家子集,因此与相同大小的密集模型相比,MoE 模型的运行成本更低。...它从主模型的最终 Transformer 层获取输出,应用 RMSNorm 进行归一化,然后将其与输入嵌入连接起来。这些输入嵌入是从主模型中使用的相同嵌入层获得的。...它遵循与前几个头相同的结构,在训练期间预测t₄到t₇,但在推理期间仅计算t₇。 每个预测头使用交叉熵计算损失。然后,这些损失用因子λ加权,取其平均值作为最终损失值。

57620
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    图解Transformer — Attention Is All You Need

    在论文中,研究人员在编码块中使用了6个编码器,并且在解码器块中使用了相同数量的解码器,其中所有编码器和解码器块都相同。 ? 我们的输入是一个文本句子,但是计算机只理解数字。...我们获得了序列中每个单词的查询,键和值,现在我们将使用查询,键和值来计算每个单词与句子中的每个其他单词有多少关联的分数。...我们通过单词查询(q1)与句子中每个单词的关键字(k)之间的点积来计算得分(一个单词与每个单词在顺序上有多少关系)。 第二步是将分数除以8(关键向量维数的平方根)。这导致具有更稳定的梯度。...解码器 最后,在将句子传递到编码器转换器时,我们将得到每个单词的向量(形状矩阵(句子长度512)),现在这个矩阵将作为解码器端编码器-解码器块的输入。 ?...第二个注意层的输出被发送到FFN层,FFN层与编码器块的FFN层类似,功能类似。

    91930

    为内存塞不下Transformer犯愁?OpenAI应用AI研究负责人写了份指南

    模型组件和数据的智能并行使得运行具有万亿级参数的大模型成为可能; 将暂时未使用的数据卸载到 CPU,并在以后需要时读回。...与训练过程相比,量化操作起来往往代价小得多; 量化感知训练 (QAT):在预训练或进一步微调期间应用量化。QAT 能够获得更好的性能,但需要额外的计算资源,还需要使用具有代表性的训练数据。...这种方法会直接学习低位表示的模型权重,并以额外的训练时间和计算为代价获得更好的性能。 最直接的方法是在与预训练数据集相同或代表预训练数据集的训练数据集上量化后微调模型。...与 STE 或 SR-STE 不同,Top-KAST 方法可以在前向和反向传播的整个训练过程中保持恒定的稀疏性,还不需要使用具有稠密参数或梯度的前向传播。...在研究如何解释图像的类别与专家之间的关系时,研究者观察到早期的 MoE 层更通用,而后期的 MoE 层可以专门用于某类图像。

    1.9K30

    详细解读 Transformer的即插即用模块 | MoE插件让ViT模型更宽、更快、精度更高

    然而,当可供训练的Token较少时,较大的模型通常无法很好地扩展,而当模型非常大时,则需要更高的并行性。由于表征能力的损失,与原始Transformer模型相比,较小的模型通常会获得较差的性能。...在 之后使用softmax,以获得更好的性能和更稀疏的专家。当K时, 的大部分元素为零,从而实现稀疏条件计算。...因此,使用可微分的负载均衡损失,而不是在路由器中均衡负载时单独的负载均衡和重要性权重损失。...为此,WideNet使用相同的路由器和专家在不同的Transformer blocks。...因此,给定T次具有相同可训练参数的路由操作,需要优化的损失如下: 其中λ是一个超参数,以确保平衡分配,将其设置为一个相对较大的数,即在本工作中为0.01。

    1.5K20

    以3D视角洞悉矩阵乘法,这就是AI思考的样子

    在思考矩阵乘法如何表示其参数的秩和结构时,一种有用的做法是设想这两种模式在计算中同时发生: 这里还有另一个使用向量 - 矩阵积来构建直觉的示例,其中展示了单位矩阵的作用就像是一面呈 45 度角摆放的镜子...因此,在输入中看到的模式本身就发人深省 —— 特别是,强大的垂直线条是特定的嵌入位置,其值在序列的长段上统一具有高的幅度 —— 有时几乎是占满了。...attn @ V 具有惊人的垂直均匀性 —— 在嵌入的大柱状区域中,相同的值模式在整个序列中持续存在。人们可以将这些看作是每个 token 共享的属性。...特别要注意,沿 i(序列块)的分区以怎样的方式扩展通过 MHA 和 FFN 两半边: 6c 对 FFN 进行分区 这种可视化方法建议进行额外的分区,该分区与上面描述的分区正交 —— 在注意力层的 FFN...半边,将双重矩阵乘法 (attn_out @ FFN_1) @ FFN_2 分开,首先沿 j 进行 attn_out @ FFN_1,然后沿 k 与 FFN_2 执行后续的矩阵乘法。

    41160

    Backbone创新 | 中科大联合百度提出全新Transformer Backbone

    (SW-SA)避免了直接的全局自注意力,而ScalableViT中在实现MHSA时使用了通道维度压缩的方法。...同时,V 的生成方式与普通 MHSA 模块相同。 IHH(·) 和 CHH(·) 它们都是使用传统的卷积网络模块来实现的。...在生成 A^h_{pre} 之后,作者将其与 A^r_{pre} 沿着Head 维度连接以获得 A_{pre} ,并且hMHSA的其余部分与MHSA相同。...特别地,当 k 等于 mC/(m+1) 时,cFFN的FLOP与标准的FFN相同。 通常,作者设 k=tmC/(m+1),t∈(0,1) ,作者称 t 为compact ratio。...为了公平比较,作者将cFFN的紧凑比设置为t=2/3,并设置m,使得香草FFN与cFFN共享相同的Params和FLOP。 从表5中可以看出,简单地减少m会使PVTv2-b1的性能严重降低0.5%。

    44330

    Bert类模型也具备指令遵循能力吗?

    利用Bert进行语言生成 与传统的从左到右的单向语言模型不同,BERT家族使用的条件独立分解捕捉了训练中标记之间更复杂的依赖关系。这种复杂性在从头开始生成可靠文本时带来了挑战。...请注意,模型不需要预测源序列 X_M 中的掩码标记。 在推理过程中,我们采用与CMLM相同的Mask-Predict算法,该算法在多次迭代中生成最终序列。...模型根据预测概率选择下一次迭代中特定的掩码标记,具有最低概率的标记将被掩码,并在新的预测后更新其分数。此外,与传统的从左到右的自回归模型不同,在初始化完全掩码目标序列之前,我们应该获得目标长度。...我们可以直接给出一个长度,在推理前。我们还引入了一个长度预测模块,跟随之前的非自回归模型,使用特殊的标记 [LENGTH] 来预测目标长度。...然而,对于这样的任务,其标签长度确定但不同的情况,例如具有标签空间{False,True}的任务,我们可以将标签空间转换为{Yes,No},这样标签长度就相同了,然后采用相应的固定长度,而不会泄漏有关目标标签的信息

    21210

    以3D视角洞悉矩阵乘法,这就是AI思考的样子

    在思考矩阵乘法如何表示其参数的秩和结构时,一种有用的做法是设想这两种模式在计算中同时发生: 这里还有另一个使用向量 - 矩阵积来构建直觉的示例,其中展示了单位矩阵的作用就像是一面呈 45 度角摆放的镜子...因此,在输入中看到的模式本身就发人深省 —— 特别是,强大的垂直线条是特定的嵌入位置,其值在序列的长段上统一具有高的幅度 —— 有时几乎是占满了。...attn @ V 具有惊人的垂直均匀性 —— 在嵌入的大柱状区域中,相同的值模式在整个序列中持续存在。人们可以将这些看作是每个 token 共享的属性。...特别要注意,沿 i(序列块)的分区以怎样的方式扩展通过 MHA 和 FFN 两半边: 6c 对 FFN 进行分区 这种可视化方法建议进行额外的分区,该分区与上面描述的分区正交 —— 在注意力层的 FFN...半边,将双重矩阵乘法 (attn_out @ FFN_1) @ FFN_2 分开,首先沿 j 进行 attn_out @ FFN_1,然后沿 k 与 FFN_2 执行后续的矩阵乘法。

    40240

    Transformer长大了,它的兄弟姐妹们呢?(含Transformers超细节知识点)

    主导了self-attention和position-wise FFN的复杂度。此时Transformer的计算瓶颈在于FFN,但是随着序列长度的增加,序列长度?...) 本文将self-attention和其余几个神经网络模型进行了对比,总结出了以下几点Transformer的优点: self-attention具有和FFN相同的最大路径长度,因此Transformer...与扩张的CNN类似,通过使用具有间隙的扩张窗口,可以潜在地增加Band Attention的感受野,而不增加计算复杂度。其中注意矩阵如图4(c)所示。...这是基于随机图(Erdős–Rényi随机图)可以具有与完全图相似的谱性质,从而通过在随机图上的游走可以得到更加快速的mixing时间。 Block Local Attention....基于内容的稀疏注意力 另一个方向的工作是基于输入内容创建稀疏图,即构造输入中的稀疏连接时是有条件的。 构造基于内容的稀疏图的简单方法是选择那些可能与给定Q具有较大相似性分数的K。

    1.7K50

    卷爆了 | 看SPViT把Transformer结构剪成ResNet结构!!!

    同时,在标准卷积层输出具有相同宽度和高度的特征映射时,卷积层的计算复杂度仍然为 。...由于 ,因此选择使用bottleneck卷积来获得更好的效率。...与式(13)一样,通过编码具有二进制门的FFN隐层维配置来寻找细粒度的MLP扩展率。通过在搜索过程中对每个隐藏维度应用二进位门,定义 UFFN层输出为: 这可以删除不重要的隐藏维度。...具体来说,在多路径实现中,在搜索前随机初始化候选BConv卷积操作的权值,并保持其他组件与单路径版本相同。...可以观察到,在计算复杂度相同的情况下,与多路径搜索相比,单路径公式具有更高的性能、更少的参数和更低的搜索成本。

    68850

    论文解读 | EATFormer:受进化算法启发改进视觉Transformer

    通过分析方程(7)和(9)的计算过程,变异和FFN操作共享统一形式的矩阵乘法,因此它们本质上具有相同的功能。...然后,卷积层ConvSo将xo映射到与输入x相同数量的通道,并通过残差连接获得模块的最终输出。此外,MSRA模块还作为模型的茎和补丁嵌入,使EATFormer更加统一和优雅。...在本文中,我们选择使用MSA模块作为GLI的基本组成,它具有O(1)的最大路径长度,除了增强局部性外,还保持了全局建模能力。...如表11所示,当在[2, 3, 4]阶段使用MSRA时,我们的模型获得了最佳结果,并且仅在第四阶段使用时模型效果急剧下降。考虑到模型的准确性和效率,使用这个模块在[3, 4]阶段是更好的选择。...请放大以获得更好的可视化。与EA的关系。受生物世界中个体在不同区域具有不同偏好的启发,我们改进了MD-MSA模块,考虑了每个空间位置的偏移。

    19310

    WideNet:让网络更宽而不是更深

    WideNet 在不同的Transformer块中使用相同的路由和专家 WideNet采用跨Transformer块的参数共享来提高参数效率,采用MoE层来提高模型容量。...WideNet在不同的Transformer块中使用相同的路由器和专家。 LN 目前来说,例如ALBERT使用的是参数共享的方法,在Transformer块之间共享所有权重。...所以给定T次具有相同可训练参数的路由操作,使用以下损失进行优化: 其中λ=0.01用作超参数,以确保均衡分配。lmain是Transformer的主要目标。...当WideNet-L比viti - l使用更少的Transformer块(即12个块)时,WideNet-L的性能比viti - l高0.7%,训练时间略少,而参数仅为13.1%,与参数共享的viti...通过使用参数共享将vitl缩放到更宽的FFN层。会有更多可训练的参数和FLOPs,但不能提高性能(4098 FFN dim到8192 FFN dim)。

    21840

    Python在Finance上的应用5 :自动获取是S&P 500的成分股

    我可以给你一个清单,但实际上获得股票清单可能只是你可能遇到的众多挑战之一。 在我们的案例中,我们需要一个标普500公司的Python列表。...,我们将使用 请求从Wikipedia的页面获取源代码。...目前,在我写这篇文章的时候,代码工作时没有改变头文件。...如果您发现原始源代码(resp.text)似乎不像在家用计算机上看到的那样返回相同页面,请添加以下内容并更改resp var代码: headers = {'User-Agent': 'Mozilla/5.0...tickers.append(ticker) 对于每一行,在标题行之后(这就是为什么要写[1:]),说的是股票行情是“表格数据”(td),通过抓住它的.text,将此代码添加到列表 tickers

    2.3K10

    多模态 LLM 中的跳过计算 ,通过跳过整个块、FFN层甚至单个神经元,可以实现计算的巨大减少 !

    在本研究中,作者研究了多模态大型语言模型(MLLMs)在推理时的计算冗余。 作者提出了一些跳过计算的方法,例如跳过整个块、FFN或自注意力(SA)层。...作者证明,在高稀疏LLM(如跳过一半的层或删除超过70%的参数)训练映射模块时,可以保留97%以上的性能。最后,作者证明,通过适当训练具有较小LLM的多模型模型,可以保留几乎相同的原性能。...为了跳过FFN,每个间隔(I)的层,等式(3)可以写为: 同样,在跳过SA层时: 实验结果。图2展示了在不同多模态数据集上,跳跃块、 FFN (FFNs)或自注意力(SA)层之间的比较。...表1呈现了有趣的结果。使用压缩的LLM进行训练,在描述生成和VQAv2上的性能几乎相同。当剪枝70%的权重或跳过一半的块(I=2)时,这一说法仍然成立。...特别是,具有OPT-2.7B参数的模型可以与 Baseline 和先前的方法相竞争,这表明使用较小的LLM进行训练是可行的,避免了与较大模型相关的昂贵成本。

    17110

    Transformer取代者登场!微软、清华刚推出RetNet:成本低、速度快、性能强

    实验结果表明,RetNet 在 scaling 曲线和上下文学习方面始终具有竞争力。此外,RetNet 的推理成本与长度无关。...这些头使用不同的参数矩阵 W_Q、W_K、W_V ∈ R^(d×d)。此外,多尺度 retention(MSR)为每个头分配不同的 γ。为了简化,研究者将 γ 设置为在不同层之间相同并保持固定。...FFN 部分计算为 FFN (X) = gelu (XW_1) W_2,其中 W_1、W_2 为参数矩阵。 训练:研究者在训练过程中使用了并行(公式 5)表示和块循环(公式 7)表示。...相比之下,RetNet 通过利用 Retention 的循环表征,在解码过程中具有更高的吞吐量,并且与长度无关。 延迟:延迟是部署中的重要指标,它极大地影响用户体验。图 6c 报告了解码延迟。...与 Transformer 变体比较 下表表明,RetNet 在不同的数据集上优于先前的方法。RetNet 不仅在领域内语料库上取得更好的评估结果,还在几个领域外数据集上获得更低的困惑度。

    32830

    解读小模型——SLM

    创建SLM背后的愿景是使机器智能大众化,让每个人都能访问并负担得起。尽管SLM具有潜在的重要意义,但与大模型相比,受到的关注较少。...SLM 的架构创新 截至2024年10月,SLM的典型架构往往包括GQA、具有SiLU激活的门控前馈网络(FFN)、2到8之间的FFN中间层比率、RMSNorm和大于50000的词汇表。...SLM 技术近年来得到了一些创新和发展,其中的关键技术包括了参数共享和非线性补偿技术。 4.1 参数共享 在大模型中,参数共享技术允许在网络的不同部分重复使用相同的权重集。...另一个例子是分层注意力/FFN共享,其中在模型的多个层中使用相同的权重。这种共享技术可以在Gemma和Qwen等模型中看到,显著提升了模型的训练和推理效率。...与传统模型中每个Transformer层具有相同配置不同,OpenELM为每个层分配了不同的配置。这种设计使得每一层中的参数数量发生变化,从而优化了资源分配,提高了模型的整体效率和性能。

    26810

    【AI系统】EfficientFormer 系列

    观察 1:在移动设备上,具有大核和步长的 patch 嵌入是一个速度瓶颈。patch 嵌入通常使用一个不重叠的卷积层来实现,该层具有较大的内核大小和步长。...LeViT-256 的大部分是用 CONV on 4D tensor 实现的,在特征转发到 MHSA 时需要频繁的 reshape 操作,因为 MHSA 必须在 3D tensor 上进行注意(丢弃注意力头的额外尺寸...其次通过在 head 维度上添加全连接层来实现注意力头之间的通信,如图 2(c)所示。通过这些修改,进一步将性能提高到 80.8%,与基线模型相比,具有相似的参数和延迟。...b)):在最后两个阶段,使用局部 FFN 和全局 MHSA 块。...因此,论文在超网络的最后两个阶段将每个 block 设置为 MHSA,然后是 FFN,并通过深度搜索获得具有所需数量的全局 MHSA 的子网络。

    14210

    【Nature重磅】谷歌AI自动重构3D大脑,最高精度绘制神经元

    不仅如此,与先前的深度学习技术相比,提高了一个数量级。 ? 使用 Flood-Filling 网络进行三维图像分割 在大规模电子显微镜数据中追踪神经节是一个图像分割问题。...新的算法从特定的像素位置开始生长,然后使用一个循环卷积神经网络不断“填充”一个区域,网络会预测哪些像素是与初始的那个像素属于同一个物体。 ? 在2D中分割物体的Flood-Filing网络。...对于生物学家来说,ERL的数值与生物学上的数量存在相关性,比如神经系统中不同部分的神经元的平均路径长度。 ?...将合并率保持在一个很低的水平,对于研究人员手动辨别并改正其他错误具有很重要的意义。...滞后和近似尺度不变性 由FFN重建的神经突形状取决于初始种子在神经突内的位置,并且当重建神经突的顺序或种子的位置改变时,它会发生显著改变。

    94520

    万字长文助你搞懂现代网页开发中常见的10种渲染模式

    在本文中,我们将研究流行框架中使用的十种常见渲染模式,通过这样做,无论是初学者还是专家都将获得对新旧框架的扎实基础理解,同时也能对解决应用程序中的渲染问题有新的见解。...第一页:显示所有可用的虚拟币 第2页:从Coingecko API获取的不同交易所的BTC价格。 请注意,在使用静态网站时,每个币种的价格页面必须手动编写。...上实现ISR的代码与SSG演示几乎相同。...所有当前的框架都需要这一步骤来使应用程序具有交互性。 水合作用之所以昂贵,有两个原因: 框架必须下载与当前页面相关的所有组件代码。...框架必须执行与页面上的组件相关联的模板,以重建监听器位置和内部组件树。

    45321
    领券