您现在的位置是:网络安全 >>正文
程序员必知的 CPU 优化秘籍:深入浅出讲解指令流水线原理
网络安全4人已围观
简介程序通过编译生成CPU可执行的机器码进行运算,为此设计者在CPU指令执行的编排上做了许多优化工作。本文将从多程序调度执行指令的角度,对CPU指令执行的设计理念进行剖析,希望对你有帮助。一、CPU 指令 ...
程序通过编译生成CPU可执行的程序出讲机器码进行运算,为此设计者在CPU指令执行的员必U优原理编排上做了许多优化工作。本文将从多程序调度执行指令的化秘角度,对CPU指令执行的籍深解设计理念进行剖析 ,希望对你有帮助。入浅

一、令流CPU 指令流水线设计的水线艺术
1. 指令串行化我们首先回顾一下一条指令的执行过程:
读取指令电路根据寄存器给出的下一条指令地址读取指令(Instruction Fetch, IF)译码电路执行指令译码(Instruction Decode, ID)算术逻辑单元ALU执行指令(Execute, EX)数据回写(Write Back, WB)这些不同的动作都会交由不同的执行电路执行,我们以单核CPU为例剖析一下该过程,高防服务器程序出讲假设我们有4条执行指令,员必U优原理对应的化秘步骤为:
加载指令1指令1译码指令1运算指令1回写指令2加载.......假设每条指令执行一个步骤需要1ns,那么 :
执行一条完整的籍深解指令需要经过4个步骤对应耗时4ns4条指令也就是4*4ns也就是16ns从CPU微观的角度来说 ,这就是入浅一种串行的 、单位时间内未能充分利用电路单元的令流流水线设计 :
复制cpu-pipeline.drawio 2. 流水线设计思想为了解决这个问题 ,我们需要进行优化。水线上文提及,程序出讲每条步骤都会对应一个电路,模板下载这意味着它们可以并行执行而不冲突。因此,我们可以采用流水线思想 ,尽可能地利用各个电路单元。例如,现在要执行指令1~4 ,对应的流水线设计思路为 :
读取指令电路加载指令1加载,此时译码、运算、回写流程空闲 ,指令2排队读取指令电路完成指令1读取 ,将其交由译码电路进行指令译码,同一时间可以从内存中加载指令2,此时运算和回写电路空闲读取指令电路传递指令2,读取指令3 ,云计算译码电路完成指令1解析 ,继续指令读取指令电路传递来的指令2...... 复制cpu-pipeline.drawio1.按照这种设计 ,指令1执行完成即4ns的时候,对应其它指令执行进度为 :
执行2执行到alu逻辑单元计算 ,还差1步回写,即还需要1ns指令3执行到译码,还差2步 ,即还需要2ns执行4执行到加载 ,还差3步,即还需要3ns因为这三条指令是流水线方式执行的,所以在指令4执行完成之后,其它指令也就全部执行完成了,源码库最终耗时约为7ns。相比于完全的串行执行(16ns) ,性能提升了约56%。
3. 分级流水线与不完美的资源开销基于这个指令流水线的思想 ,我们可以看出通过分级流水线的方式,可以在单位时间内更多更好的利用到资源保证指令的高效执行,所以我们是否可以尝试分更多的等级 ,加深流水线的免费模板深度,让需要指令的指令更早的加入流水线,保证单位时间内可以容纳更多的指令,来提升单核CPU的吞吐量。
假设我们将4个步骤拆分为8个步骤 ,每个执行0.5ns ,带入之前的4条指令的执行步骤为:
步骤1执行指令1,其它步骤等待步骤1传递指令1 ,继续执行指令2,即指令2在1ns时就进入流水线,亿华云相比于4个步骤的流水线早了0.5ns......指令1在步骤8执行完成 ,对应指令4还差1步,即0.5ns全部执行完成大约5.5ns和多线程上下文切换开销一样,盲目的增加的电路设备散列工作提升流水线并行度始终会因为过多的电路功耗而出现新的性能瓶颈,所以对于流水线深度设计并不是设置越多越好 ,而是需要通过压测来平衡流水线级数和功耗 。
4. 平衡分级下的竞争问题同时 ,上述的情况还是理想情况,实际上指令的执行并非是串行独立的,可能指令1执行时需要内存资源 ,指令2也需要这个内存资源,此时的并行就必须存在一方阻塞等待一方用完才能使用 ,同理对应的竞争存在 :
结构冒险:即单位时间内多条指令需要同一个硬件资源数据冒险 :单位时间内 ,后续指令依赖前一条指令结果 ,例如指令2需要指令1的结果 ,那么流水线就必须停下让指令1执行完成得到结果后,才让指令2完成后续流水线工作控制冒险 :单位时间内 ,后执行指令依赖前一条指令的执行结果决定下一步的分支二 、乱序指令CPU指令
1. 乱序执行的设计理念上文提到的数据冒险和结构冒险都会使CPU电路单元因依赖问题初导致流水线阻塞停顿,导致CPU未能得到充分的利用,于是设计者们就考虑是否存在一种方式可以通过进一步提升CPU利用率从而提升性能表现 。
于是就有了乱序执行的设计理念,即没有关联性的指令可以预先执行等待使用,如下代码所示 ,按照原有的流水线设计 ,整体运算思路为:
代码段2的加法运算依赖于num1生成,所以代码段2需要等待num1执行完成运算并回写代码1完成运算,代码2继续完成指令执行代码段3和代码段4的num1、num2、num3继续按照流水线的顺序执行复制//代码段1 int num1 = RandomUtil.randomInt(1000000); //代码段2依赖于代码段1 int num2 = num1 + RandomUtil.randomInt(1000000); //num3没有依赖性可以预先执行 int num3 = 0; //上述数据累加 int result = num1 + num2 + num3; System.out.println("结果:" + result);在乱序执行的设计思路下 ,因num3并不存在依赖性问题,我们完全可以在代码段2阻塞期间,即 :
代码段1执行随机生成代码段2阻塞 ,代码段3现在流水线顺序执行代码段2在代码段1完成后继续在流水线上执行代码段4进行累加回写2. 如何实现乱序并发有了上述的思路 ,我们就需要思考这样一个问题 ?如何确定指令间的依赖性?答案是加一层缓存,我们都知道指令执行的顺序为:
指令读取指令译码alu计算数据回写查看该指令是否存在依赖 ,只需在指令译码和alu执行单元之间加一层缓存我们称为保留站,在译码后通过这层缓存记录当前指令是否有依赖的数据?是否依赖硬件且硬件是否忙碌?需要读写的寄存器是哪些 ?通过这些信息将指令进行归类 ,执行单元就可以基于这些信息预先执行一些没有依赖性的指令,然后在指令重排序阶段将乱序指令结果重排序输出,从而提升cpu单位时间的吞吐量和利用率:
3. 寄存器依赖问题解决指令乱序执行的依赖性问题 ,还剩下一个寄存器冲突问题,即多条指令执行时都依赖于一个寄存器导致阻塞停顿怎么办?CPU还是采用了空间换时间的思路,即在内部生产无数寄存器,在指令进入保留站之前预先将其分配映射到内部寄存器中 ,即执行操作时用到的寄存器都是这些内部寄存器,然后在重排序缓冲区将指令按顺序排列后存到外部寄存器完成数据回写工作 ,整个过程内部的乱序高效执行,但是对外确是透明让人感觉是顺序执行的一样,由此解决的结构冒险(硬件资源竞争)和数据冒险(后执行的指令依赖于前一条指令的结果)问题,这也就是java并发编程中的as-if-serial思想:
三 、小结
CPU流水线技术是现代处理器设计中的核心优化手段,通过将指令执行过程分解为多个独立的阶段,并允许不同指令在不同阶段并行执行 ,显著提升了CPU的指令吞吐量 。本文从指令串行执行的低效性出发,介绍了流水线设计的基本思想,通过具体的数据计算展示了流水线相比串行执行的巨大性能优势 。
同时,我们也了解到流水线设计并非没有代价。随着流水线级数的增加,虽然理论上可以提高性能,但也会带来硬件复杂度增加、功耗上升以及各种冒险问题。因此 ,CPU设计者需要在流水线深度 、硬件资源和性能之间找到平衡点 。
基于流水线的设计,我们增加一层保留站和内部寄存器,使得流水线指令可以通过依赖性检测优先执行一些没有依赖性的指令 ,然后将结果顺序写回外部寄存器,使得外部看起来指令顺序执行的一样的 。
Tags:
转载:欢迎各位朋友分享到网络,但转载请说明文章出处“商站动力”。http://www.noorid.com/html/672a499323.html
相关文章
调查发现超十万名 ChatGPT 用户信息被黑客出售
网络安全6 月 21 日消息,根据国际网络安全公司 Group-IB 的报告,超过 10 万名 ChatGPT 用户的个人信息被泄露,有黑客正在暗网交易平台进行出售。Group-IB 深入调查暗网数据,统计了 ...
【网络安全】
阅读更多电脑变量转换错误代码解析(深入探讨电脑变量转换错误以及解决方法)
网络安全在编写和调试程序的过程中,我们常常会遇到电脑变量转换错误的问题。这种错误可能导致程序运行出错或产生不可预料的结果。本文将从多个方面详细解析电脑变量转换错误的原因以及解决方法,帮助读者更好地理解和应对这 ...
【网络安全】
阅读更多win11关机后自动重启解决方法
网络安全有的朋友发现自己电脑明明关机了,但是关机后又会自动关机,排除不小心点错到重新启动的原因后,win11关机后自动重启怎么办呢,其实只要关掉高级系统设置里的选项即可。win11关机后自动重启解决方法:1、 ...
【网络安全】
阅读更多
热门文章
最新文章
友情链接
- MotoZ信号表现如何?(探索MotoZ在各种信号环境下的表现和关键特性)
- 电脑连接宽带教程-一步步教你如何连接宽带网络(简单易懂的连接宽带教程,助您快速上网畅享互联网世界)
- 什么是PDU?如何为数据中心选择合适的PDU
- 红米Note4在知乎上的评价如何?(通过知乎用户的真实评价了解红米Note4的性能、使用体验及优缺点)
- 索尼手提电脑大白菜重装系统教程(详细步骤教你轻松重装索尼手提电脑系统)
- 安卓手机怎么空手接电话
- 红米Mate4X带给你的全新体验(一部强大的智能手机,让你爱不释手)
- 探索苹果7P10.33系统的卓越性能与特点(一探苹果7P10.33系统的强大功能和用户体验)
- 索尼笔记本装机教程(一步步教您如何在索尼笔记本上进行硬件升级和软件安装)
- 联想B41-80优盘安装系统教程(快速、简单地为联想B41-80电脑安装操作系统) 亿华云企业服务器香港物理机云服务器源码库b2b信息平台网站建设