开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何在ARM Cortex-a8中使用乘法和累加内在函数？

在ARM Cortex-A8架构中，使用乘法和累加内在函数可以通过以下方法实现：

乘法：

在ARM Cortex-A8架构中，可以使用SMULL指令来实现32位整数的乘法。SMULL指令将两个32位整数相乘，并将结果分为高32位和低32位存储在两个寄存器中。以下是SMULL指令的使用示例：

SMULL r0, r1, r2, r3

该指令将r2和r3相乘，并将结果的高32位存储在r0中，低32位存储在r1中。

累加：

在ARM Cortex-A8架构中，可以使用ADD指令来实现32位整数的累加。ADD指令将两个32位整数相加，并将结果存储在目标寄存器中。以下是ADD指令的使用示例：

ADD r0, r1, r2

该指令将r1和r2相加，并将结果存储在r0中。

内联函数：

内联函数是一种特殊的函数，它可以在编译时被替换为其函数体中的代码，以提高程序的执行效率。在ARM Cortex-A8架构中，可以使用__inline关键字来定义内联函数。以下是一个使用内联函数实现乘法和累加的示例：

__inline int32_t multiply_and_accumulate(int32_t a, int32_t b, int32_t c) {
    int32_t result;
    asm volatile (
        "smull %0, %1, %2, %3\n\t"
        "add %0, %0, %4\n\t"
        "add %1, %1, %4"
        : "=r"(result), "+r"(c)
        : "r"(a), "r"(b), "r"(c)
        : "cc"
    );
    return result;
}

该内联函数接受三个参数a、b和c，并使用SMULL指令将它们相乘，然后使用ADD指令将结果累加到c中。最后，函数返回累加后的结果。

需要注意的是，使用内联函数时需要谨慎，因为过多的内联函数可能会导致代码体积过大，影响程序的执行效率。

相关搜索:如何在r中不使用cumprod的情况下对向量进行累加乘法？当被乘数在累加器中时，如何在6502中使用加法和移位算法进行乘法运算？如何在iOS中使用Metal API中的计算函数进行乘法运算如何在jenkinsfile中定义和使用函数？AngularJS -使用集合中的id，如div标记和like函数参数中的id 如何在SICP ex1.32中用递归和迭代方法编写相同的累加函数雪花函数--如何在函数中声明变量和使用SQL语句如何在Angular中添加动画(如fadeIn和fadeOut) (使用ngx-owl-carousel-o)？如何在data.table中存储和使用函数？如何在matlab中调用和使用函数递归性如何在nodejs中检查设备系统信息(如RAM大小和实际使用情况)如何在Access VBA编码中同时使用Select Case和and函数？如何在Excel for Office 365中使用对象和VBA函数？如何在Spark 2.3.1中使用map和reduce函数进行分组和计数如何在JS中导入和使用另一个函数中的函数如何在数据框函数中的不同列上同时使用sum和count函数？如何在另一个函数中定义和使用数组？JavaScript -如何在变量中存储和使用函数的返回值如何在函数定义中同时使用rest和spread运算符？如何在R中同时使用计数函数和case_when？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

ARM Cortex-A系列处理器性能分类与对比 | A53、A57、A73等

在这之前让我们先简单认识一下处理器的架构。所谓处理器架构是CPU厂商给属于同一系列的CPU产品定的一个规范，主要目的是为了区分不同类型CPU的重要标示。目前市面上的CPU指令集分类主要分有两大阵营，一个是intel、AMD为首的复杂指令集CPU，另一个是以IBM、ARM为首的精简指令集CPU。不同品牌的CPU，其产品的架构也不相同，例如，Intel、AMD的CPU是X86架构的，而IBM公司的CPU是PowerPC架构，ARM公司是ARM架构。　　下面我们将详细了解近年来ARM公司发布的数款A系列处理器。ARM公司的Cortex-A系列处理器适用于具有高计算要求、运行丰富操作系统以及提供交互媒体和图形体验的应用领域。　　Cortex-A73

03

Cortex-A8/A76

关于Cortex-A8的微处理架构参考《ARM_Cortex-A8微处理器的架构和实现》

02

常见的嵌入式linux学习和如何选择ARM芯片问答

大家好，又见面了，我是你们的朋友全栈君。常见的ARM嵌入式学习问答，设计者和学习者最关心的11个问题： 1. ARM嵌入式是学习硬件好还是学习软件好? 2. 嵌

03

ARM架构学习

ARM处理器是英国Acorn有限公司设计的低功耗成本的第一款RISC微处理器。全称为Advanced RISC Machine。

03

全志芯片bsp命名规则

在linux bsp中，allwinner平台统一命名为“sunxi”。即：linux bsp中的“sunxi”可以理解为是allwinner的代称。

01

ARM公司发布专注人工智能与机器学习的DynamIQ平台

科技博客ExtremeTech发布消息，称美国知识产权供应商ARM公司发布了专注于人工智能与机器学习的DynamIQ平台。近十年来，从Cortex-A8开始，ARM公司一直推动着移动设备向更高的性能发展，就像英特尔公司（AMD公司也在较小程度上）在个人电脑领域曾经所做的那样。在不到10年里，我们已经看到ARM芯片从32位升级为64位，推出了针对高端和低端应用的更高效中央处理器（CPU），从单核芯片发展到基于big.Little配置的八核中央处理器集群，配有足够精密的负载平衡器，能够将工作负载移动到所有8个

05

【专业技术】C语言里面丰富多彩的浮点运算

编者按：浮点运算，说起来简单，实现起来可不是那么容易的事情，我们认为很简单的运算，计算机特别是嵌入式处理器实现起来，也不是那么容易。嵌入式处理器，用的最多的当属ARM家族了，我也每天都跟她打交道，但对

05

stm32编程入门教程_零基础编程入门书籍

在中国，熟悉单片机的人士大多会听说过STM32。这是意法半导体（STMicroelectronics，简称ST）的32位微控制器（MCU）家族，基于ARMCortex-M内核。

02

【嵌入式开发】ARM 芯片简介 (ARM芯片类型 | ARM处理器工作模式 | ARM 寄存器 | ARM 寻址)

博客地址 : http://blog.csdn.net/shulianghan/article/details/42375701

03

cubieboard（树莓派）入手初体验

一个很偶然的机会，看到一朋友在玩 cubieboard开发板，仔细研究了下，这块PCBA板子可以充当服务器使用，所以就萌生了念头，搞了一个用来放我的这个博客站点。我买的是基础版，在淘宝308的价格

三生三世 CPU，ISA 架构变迁

开发人员基于指令集架构（ISA），使用不同的处理器硬件实现方案，来设计不同性能的处理器，因此 ISA 又被视作 CPU 的灵魂。我们可以将指令集架构理解为一个抽象层，它是处理器底层硬件与运行在硬件上的软件之间桥梁和接口。

02

资源 | 让手机神经网络速度翻倍：Facebook开源高性能内核库QNNPACK

为了将最新的计算机视觉模型部署到移动设备中，Facebook 开发了一个用于低密度卷积的优化函数库——QNNPACK，用在最佳神经网络中。

04

嵌入式：ARM系列处理器详解与性能对比

其中，ARM7、ARM9、ARM9E和ARM10为4个通用处理器系列，每一个系列提供一套相对独特的性能来满足不同应用领域的需求。SecurCore系列专门为安全要求较高的应用而设计。

03

用于ARM Cortex-M系列的芯片的神经网络推理库CMSIS-NN详解

论文题目：《CMSIS-NN: Effificient Neural Network Kernels for Arm Cortex-M CPUs》, 2018年

04

Arm Cortex-A77

从2016年的Cortex-A73到2020年的“ Hercules”设计，ARM承诺将计算性能提高2.5倍。通过Cortex-A76的重大微体系结构转变，更高的现代时钟速度以及从16到10的转变，以及现在的7nm制造和随后的5nm制造，可以完成这一巨大的计划。到去年，已经实现了路线图约1.8倍的增长，而Cortex-A77的IPC提升了约20％。尽管功率和热量预算有限的移动设备并不期望获得所有这些收益，但这使我们顺利达到了Arm的2.5倍目标。

01

memcpy速度太慢？掌握这个技术让内存拷贝效率成倍提升

memcpy是C/C++的一个标准函数，原型void *memcpy(void *dest, const void *src, size_t n)，用于从源src所指的内存地址的起始位置开始拷贝n个字节到目标dest所指的内存地址的起始位置中。 neon是适用于ARM Cortex-A系列处理器的一种128位SIMD(Single Instruction, Multiple Data,单指令、多数据)扩展结构。neon支持一次指令处理多个数据，比如处理8个8-bit、4个16-bit、2个32-bit或1个64-bit。正是这个特性可以用于加速内存拷贝。在正常情况下memcpy的性能已经足够使用了，但是当我们因为某些原因在拷贝大内存遇到瓶颈的时候，可以考虑使用neon来加速内存拷贝。比如我在使用glMapBufferRange把PBO从GPU内存映射到CPU内存的时候遇到了耗时问题，拷贝921600字节的数据需要30ms，在使用neon后，内存拷贝耗时直接降低到了4ms，相差将近8倍。事实上，在arm平台上使用neon指令可以高效提升数据并行处理性能，而不仅仅局限于内存拷贝。google开源的libyuv内部也使用了neon指令来并行处理数据。

04

浅谈FPGA与音频处理器的结合

FPGA通常是面向通信行业，尽管其主要开发者仍然专注于通信应用, 但他们越来越关注存储和服务器市场。

04

想让你的微控制器AI效率提升5倍吗？

目前，在许多需要在本地进行数据分析的“永远在线”的物联网边缘设备中，神经网络正在变得越来越普及，主要是因为可以有效地同时减少数据传输导致的延时和功耗。而谈到针对物联网边缘设备上的神经网络，我们自然会想到Arm Cortex-M系列处理器内核，那么如果您想要强化它的性能并且减少内存消耗，CMSIS-NN就是您最好的选择。基于CMSIS-NN内核的神经网络推理运算，对于运行时间/吞吐量将会有4.6X的提升，而对于能效将有4.9X的提升。

02

什么是ARM？_arm开发板

arm内核： arm内核主要由：寄存器、指令集、总线、存储器映射规则、中断逻辑和调试组件等。

01

ARM的体系结构。

1.1 Application Cortex Processors (ARM Cortex 应用处理器 )　　• Cortex™-A 系列 - 开放式操作系统的高性能处理器　　Cortex 应用处理器在先进工艺节点中可实现高达 2GHz+ 标准频率的卓越性能，从而可支持下一代的移动 Internet 设备。这些处理器具有单核和多核种类，最多提供四个具有可选 NEON™ 多媒体处理模块和先进浮点执行单元的处理单元。　　所有 Cortex-A 处理器都共享共同的体系结构和功能集。这使其成为开放式平台设计的最佳解决方案，因为此时不同设计之间软件的兼容性和可移植性最重要：　　ARMv7-A 体系结构　　对所有操作系统的支持　　Linux 完整分配 - Android、Chrome、Ubuntu 和 Debian　　Linux 第三方 - MontaVista、QNX、Wind River　　Symbian　　Windows CE　　需要使用内存管理单元的其他操作系统支持　　指令集支持 - ARM、Thumb-2、Thumb、Jazelle®、DSP　　TrustZone® 安全扩展　　高级单精度和双精度浮点支持　　NEON™ 媒体处理引擎

03

OpenCv库的精简

cmake -G "Unix Makefiles" -DCMAKE_TOOLCHAIN_FILE=..\..\android\android.toolchain.cmake ..\..\..

02

LuaJit交叉编译移植到ARM Linux

这里选择LuaJit在嵌入式Linux系统使用，LuaJit交叉编译也比较简单，没有第三方库的依赖，直接交叉编译源码即可。

02

【业界】仔细看看ARM的机器学习硬件它具有怎样的优势？

AiTechYun 编辑：nanan 几周前，ARM宣布推出第一批专用机器学习(ML)硬件。在“Project Trillium”项目中，该公司为智能手机等产品推出了专用的ML处理器，以及专门为加速对

04

ARM 公布全新 Armv9 架构：10 年最大更新、不受制于美国出口管理条例

当今世界正处于快速变革之中，而变革的主要焦点就在于人工智能的发展，人工智能的发展又离不开算力、算法和大数据，算力的发展更离不开芯片的进步，近日 Arm 最新架构Armv9 正式推出，Arm 希望这个架构在未来十年可以成为下一代 3000 亿颗芯片计算平台的基础，也就是说 Armv9 将改变当下芯片格局，并让整个时代的算力有质的飞跃。

02

嵌入式编程中使用qemu能够做什么？

嵌入式开发的过程中，很多时间都是要和硬件设备打交道，通过程序控制硬件的具体行为，这些往往是单片机延续下来的开发模式，在目前复杂的嵌入式系统中，很多都需要借助设计模式来进行开发，比如文件系统，网络，图形，算法等等，这些如果能够利用软件模拟器进行开发，可以大大的减少上板调试的时间。减少硬件连接的烦恼，在家也能随时分析软件代码。

02

嵌入式开发的必备知识点

嵌入式操作系统（EmbeddedSystem）是指以应用为中心、以计算机技术为基础，软件硬件可裁剪、适应应用系统对功能、可靠性、成本、体积、功耗严格要求的专用计算机系统。举例来说，大到油田的集散控制系统和工厂流水线，小到家用VCD机或手机，甚至组成普通PC终端设备的键盘、鼠标、硬盘、Modem等均是由嵌入式处理器控制的。

03

高通收购芯片公司的重要意义

1月14日，高通同意以约14亿美元的价格收购Nuvia。这笔交易获得了包括三星，索尼，OnePlus，LG等覆盖了智能手机到智能汽车系统产品的合作伙伴的支持性声明。这可能是今年最重要的技术收购之一。

01

compile ffmpeg for armv7 armv7s[通俗易懂]

git clone git://source.ffmpeg.org/ffmpeg.git ffmpeg

01

【知识】详细介绍 CUDA Samples 示例工程

CUDA 是“Compute Unified Device Architecture (计算统一设备架构)”的首字母缩写。CUDA 是一种用于并行计算的 NVIDIA 架构。使用图形处理器也可以提高 PC 的计算能力。

01

ffmpeg编译

ndk个版本下载地址选择：https://blog.csdn.net/shuzfan/article/details/52690554

06

中国智能硬件开发板玩家大盘点

这段时间有幸在寨都深圳走访了几家专业开发板的生产厂家，对于国内开发板情况算是有一个新的认识。 CPU厂商为了将产品推向市场，为了让客户了解CPU的各项性能及电路设计而专门设计的一块电路板，开发板同时会附带硬件接口的驱动程序，开发板电路板将CPU的控制信号线及通用的外围接口延引出来。有了硬件接口及驱动程序，设计人员可以快速专注产品应用软件的开发，完成应用软件对外围电路进行控制测试，软件调试完毕后交付批量生产，完成产品的开发。由于厂商推广的开发板价格高企，有没有价格低廉、大众玩家都玩得起的开源

06

【STM32F429的DSP教程】第1章初学数字信号处理准备工作

完整版教程下载地址：http://www.armbbs.cn/forum.php?mod=viewthread&tid=94547 第1章初学数字信号处理准备工作本期教程开始带领大家学习DSP

03

【STM32H7的DSP教程】第1章初学数字信号处理准备工作

完整版教程下载地址：http://www.armbbs.cn/forum.php?mod=viewthread&tid=94547 第1章初学数字信号处理准备工作本期教程开始带领大家学习DSP

02

【STM32F407的DSP教程】第1章初学数字信号处理准备工作

完整版教程下载地址：http://www.armbbs.cn/forum.php?mod=viewthread&tid=94547 第1章初学数字信号处理准备工作本期教程开始带领大家学习DSP

02

.NET平台系列17 .NET5中的ARM64性能

.NET团队使.NET 5大大提高了常规性能和ARM64性能。在《.NET5中的性能改进》博客中可以查看总体改进情况。在这篇文章中，将描述我们专门针对ARM64进行的性能改进，并展示对我们使用的基准的积极影响。我还将分享一些我们已经确定并计划在将来的版本中进行性能改进的其他机会。

01

中断服务子程序是如何被执行的？

笔者在《程序是如何在 CPU 中运行的(二)》中从 PC 指针寄存器的角度分析了一级函数调用和二级函数调用执行的过程，那么中断服务子程序又是如何被执行的呢？两者的相同点和不同点是什么呢？该篇文章笔者将详细地阐述这个概念。

01

【集创赛】arm杯国奖作品推荐--技术文档！

“基于 ARM Cortex-M3 处理器与 FPGA 的实时人脸检测 SOC”的概述请看《基于 ARM Cortex-M3 处理器与 FPGA 的实时人脸检测 SOC（查看公众号上篇内容）》，本篇文章是对“基于 ARM Cortex-M3 处理器与 FPGA 的实时人脸检测 SOC”中涉及到的技术细节的介绍，希望您能有所收获。

01

这么好用？！99%开发者从未听说过的堆栈模型（加量增强版）

在中文嵌入式环境中，时不时的总能看到不少朋友”堆”“栈“傻傻分不清楚，我很早之前在文章《漫谈C变量——夏虫不可语冰》介绍过二者的区别，这里就不再深入展开，总之：

03

中断服务子程序是如何被执行的？

笔者在《程序是如何在 CPU 中运行的(二)》中从 PC 指针寄存器的角度分析了一级函数调用和二级函数调用执行的过程，那么中断服务子程序又是如何被执行的呢？两者的相同点和不同点是什么呢？该篇文章笔者将详细地阐述这个概念。

03

CPU推理性能提高数十倍，旷视天元计算图、MatMul优化深度解读

在深度学习大规模落地边缘端场景的今天，如何最大程度降本增效，是企业与开发者共同关注的话题。其中，模型的训练与推理是两个关键环节。

01

1毫瓦芯片就能玩《毁灭战士》，超低功耗芯片来了

选自IEEE 机器之心编译编辑：铭怿最近，美国人工智能芯片初创公司 Syntiant 公布了一款超低功耗芯片，可以在 1mW 的功耗下玩《毁灭战士》。一个 1 毫瓦的机器学习芯片可以做很多事情，不过像玩《毁灭战士》（Doom）这样充满想象力的做法却很少见。最近几日，在旧金山举行的 2023 IEEE ISSCC（International Solid State Circuits Conference）大会上，总部位于加州欧文的 AI 芯片初创公司 Syntiant 详细介绍了他们的产品 NDP2

03

工程之道 | CPU推理性能提高数十倍，MegEngine计算图、MatMul优化解析

在深度学习大规模落地边缘端场景的今天，如何最大程度降本增效，是企业与开发者共同关注的话题。其中，模型的训练与推理是两个关键环节。

04

你听说过Cortex-M85么？

就在今天，Arm发布了新一代的Cortex-M处理器，Cortex-M85。简单粗暴的打个比方：

02

【教程】如何用GCC“零汇编”白嫖MDK

然而，既然你点开了这篇文章，无论是否真的有这样的需求，至少说明你对这样的搭配还是“颇有些好奇”的。我就不去担心背后的真正原因了，就让我们速速切入正题，进入实操环节吧。

01

从飞思卡尔到NXP，经久不衰的i.MX系列产品背后的“成功学”

近日，恩智浦半导体（NXP）宣布其EdgeVerse™产品系列新增了跨界应用处理器，包括i.MX 8ULP、经Microsoft Azure Sphere认证的i.MX 8ULP-CS（云安全）系列和新一代高性能智能应用处理器i.MX 9系列。至此，NXP的i.MX系列已经逐步壮大，并应用于多种领域。其实，i.MX系列早在20年前就已经在各领域有所应用，并深受用户喜爱。下面我们就了解一下i.MX是如何诞生的。

02

在工业领域，DSP将要被ARM淘汰了？ARM + DSP才是更优解？

随着ARM芯片技术的高速更新迭代，越来越多工业应用场景都使用ARM架构实现，ARM既可跑操作系统（Linux、FreeRTOS等）满足复杂应用需求，亦可跑裸机满足高实时等应用需求。由于ARM生态系统十分完善，因此在人机交互、网络通信、文件系统管理方面，有着得天独厚的优势。

01

第001课不要再用老方法学习单片机和ARM

我们的第一期是教大家如何将ARM开发板当作单片机来用，但在这期视频的第一节，我告诉你们，学习单片机是没有前途的。

01

嵌入式：数据处理指令详解

如果数据操作有结果，则结果为32位宽，放在一个寄存器中（有一个例外是长乘指令的结果是64位的）；

04

Cortex-A53架构(记笔记的方法)

一颗芯片最主要的就是CPU核了，处理CPU Core之外，还存在很多其他IP，包括Graphical、Multimedia、Memory Controller、USB Controller等等。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭