所以整体来看, 从pi 和gi 生成进位c1 ~ c16 最长的路径也只需要6 级门延迟, 这比前面介绍的块内并行但块间串行的电路结构更快。...对于N位数的补码乘法, 操作可以在N/2 个时钟周期内完成, 并有可能提前结束。在这个结构中, 被乘数、结果、加法器和Booth 核心的宽度都为2N 位。...现代处理器通常可以实现全流水、4 个时钟周期延迟的定点乘法指令, 其核心思想就是将各个部分积并行地加在一起, 而非串行迭代累加。...以64 位数据的乘法为例, 共有32个部分积, 如果按照二叉树方式来搭建加法结构, 第一拍执行16个加法, 第二拍执行8个加法, 以此类推,就可以在5 个时钟周期内结束运算。...这个设计还支持流水式操作: 当上一条乘法指令到达第二级, 此时第一级的16个加法器已经空闲, 可以用来服务下一条乘法指令了。