Intel VTune Amplifier - C、C++、C#、Fortran、汇编语言和 Java*的剖析工具
英特尔 VTune Amplifier XE 2013 性能和线程档案器
串行和并行性能
易用
性能分析可能很难,但工具可以很。
. 的版本――所用生产版本采用普通编译器中的符号。
. 预先设定的性能配置文件――预先设定的配置文件提供了易用的诊断设置。
. 低开销――可信的结果。
. 命令行――自动回归分析。的远程数据收集。
多种用途――的性能配置文件集
您是初次调优,还是执行高等,VTune Amplifier XE 都能够提供满足调优需求的数据。
. 热点分析――定位耗时多的代码。查看调用序列。
. 轻量级热点分析――利用芯片上硬件实现低开销并缩短解析时间。
. 锁定与等待――对线程进行调优。找到影响性能提升的同步对象。
. 系统级分析――调优驱动程序、内核模块和多进程应用程序。
. 调用计数分析――找到可以通过内联提高性能的代码。
. 带宽、内存和分支分析等--有待深挖的高等分析功能。
. MPI 应用程序――使用 MPI 和OpenMP来分析混合应用程序。可安装在集群上。
――排序、过滤和可视化
有好的数据是不够的。我们还需要用工具来挖掘数据,并使数据更易于理解。
. 源代码视图――查看源代码和汇编语言(C、C++、C#、Fortran和 Java)上的配置文件数据。
. 时间轴――可视化线程交互,平衡工作负载,过滤数据。
. 过滤结果――清除数据中的噪音。选择真正需要查看的数据。
. 任务注释――对源代码进行注释,为时间轴添加有意义的任务标签。
. 帧分析――检测 DirectX*帧并过滤结果,从而显示缓慢的帧中的缓慢代码。
. 英特尔® 线程构建模块――从内部理解并行编程模型。
. 问题高亮显示――高亮显示可能的调优机会。悬停鼠标可以显示建议。
主要
定位 CPU 耗时多的代码
热点分析提供了耗费大量 CPU 时间的函数列表。单击 [+] 可以显示调用堆栈。双击函数可以查看源代码。
在源代码上查看结果
双击列表中的函数可以显示函数中的热点。
通过锁定和等待分析对线程进行调优
找到并行程序中降低性能的常见原因:等待锁定的时间过长,并且等待过程中内核未经过充分利用。配置文件(例如热点以及锁定与等待)使用可以在英特尔及兼容平台上工作的软件采集器。
通过时间轴过滤对数据进行挖掘
在时间轴内选择时间范围并过滤出遮盖了信息的数据(如,应用程序启动)。当在时间轴内进行选择并过滤时,耗 CPU 时间的函数列表会不断更新,显示选定时间过滤出的列表。
可视化线程行为
查看线程何时运行和等待以及何时发生转换。平衡工作负载。
剖析正在运行的应用程序
进行剖析时,停止和重启应用程序。
· 附加正在运行的进程
· 利用硬件事件采样对整个系统进行剖析,过滤出过后需要的数据
低开销/快解析――硬件剖析
除了可在英特尔和兼容处理器上工作的热点分析之外,VTune Amplifier XE还有轻量级热点分析功能,可以以低的开销使用英特尔处理器上的性能监控单元(PMU)来收集数据。更快的解析(从 10毫秒缩短到1 毫秒)可以找到运行的小函数中的热点。现在通过可选的堆栈收集可以识别调用序列。
预定义的硬件事件配置文件
对新处理器的的剖析设置。需要记录复杂事件名称。高等配置文件(例如内存带宽分析、内存访问和分支预测失误)可以找到调优机会。现在通过可选的堆栈收集可以识别调用序列。配置文件因微架构不同而有所不同。
高亮显示调优机会
当检测到潜在的调优机会时,该单元格将变为粉色高亮显示。悬停鼠标显示建议。
详细信息
对并行(和串行)应用程序进行调优
较老式的剖析工具只能提供用于调优串行应用程序的数据。虽然这是需要的,但当您需要当今的并行应用程序时,它是不够的。VTune Amplifier XE的并发和锁定与等待分析与线程时间轴结合,提供了调优可伸缩性和并行性能的工具。
的数据分析
与大多数的竞争产品不同,英特尔VTune Amplifier XE 会显示数据,它还允许您对数据进行分析。
在时间轴内选定时间范围,并过滤掉不属于该时间范围的数据。这会更新 CPU 耗时多的函数列表,以显示出在选定时间内有哪些函数消耗了 CPU。这允许您过滤掉噪音(例如应用程序启动),或者追踪到只在时间发生的性能问题。
默认情况下,数据是按照函数(进而按照调用堆栈)进行分组的,以便得到耗 CPU 时间的函数列表。但您也可以按照方式对数据进行重新分组。例如,按照函数(进而按照线程)进行重新分组,以查看线程化的例程是否达到了很好的平衡。
选择和分组的结合可以提供的功能。想调优图形应用程序?按帧分组来识别缓慢的帧。选择慢的帧并进行过滤。然后按函数进行重新分组。现在您在缓慢的帧中得到了很耗时的函数列表。这些就是在加速缓慢帧时需要知道的数据。
新
利用调用计数判断哪些函数应该改为内联函数 当函数的调用频率很高时,或许把它改写为代码中的内联函数是很有意义的,这样可以函数调用的开销。VTune Amplifier XE 现在提供了调用计数的统计数据,帮助您更好地判断哪些函数应该作为内联函数。它还能够显示源代码的剖析结果(即使代码是内联的),从而使得解释剖析结果变得更。
硬件堆栈采样 除了可在英特尔和兼容的处理器上工作的软件堆栈采样之外,VTune Amplifier XE 现在还在英特尔处理器上使用性能监控单元(PMU)进行硬件堆栈采样。这的采样频率(从 10 毫秒减少到1 毫秒),因此可以找到运行的小函数中的热点。高等硬件事件(例如缓存未命中率和带宽预测失误)现在都有了堆栈,这使得我们更找到调优的机会。
更好的内存带宽分析 VTune Amplifier XE 可以对缓存和内存的读写操作执行更的内存带宽分析。它还增加了对更多处理器类型的带宽分析。
Java 剖析 对 Java 或 Java 与本地代码的混合代码进行分析。结果显示在原始的Java 源代码上。
分析用户任务 任务注释 API 可用于对源代码进行注释,这样VTune Amplifier XE 能够显示哪些任务正在执行。例如,如果您为源代码的各个执行阶段加了标签,它们就会被标记到时间轴上,悬停鼠标将显示详细信息。这使得数据剖析更理解。
自动检测Microsoft DirectX* 帧 您的游戏是否运行迟缓?知道在哪里耗时多是没有用的,还需要知道为什么耗时多的地方帧的速度还这么缓慢。VTune Amplifier XE 现在可以自动检测 Microsoft DirectX*帧,并对结果进行过滤,以显示缓慢的帧发生了什么情况。您是否没有使用 DirectX*?使用 API 定义关键区域,帧分析成为分析延迟的有力工具。
对英特尔® 至强融核™ 协处理器进行调优 英特尔® 至强融核™ 协处理器硬件剖析,并可以从图形用户界面启动。它可以收集轻量级的热点和高等事件数据,并用时间标记来关联多个卡的数据。英特尔® 至强融核™ 协处理器不软件采集(例如锁定与等待分析)。
VTune Amplifier XE 中的电源分析可以识别唤醒电源的原因。利用调用堆栈,可以将中断映射到 IRQ,并将计时器映射到源代码。这提供了切实可行的信息,帮助减少并加强电源的唤醒,通过长期保持低耗电状态来减少电源的使用。
分析 MPI 应用程序 使用 MPI 和OpenMP(或线程)对混合应用程序进行调优。安装到集群上。按对结果进行排序。
新的处理器 VTune Amplifier XE 不断地增加对新处理器的。新的处理器推出之后,此工具的更新很快就会发布。
- 2024-11-19
- 2024-11-12
- 2024-11-08
- 2024-11-07
- 2024-11-05
- 2024-10-30
- 2024-11-15
- 2024-11-14
- 2024-11-01
- 2024-10-18
- 2024-10-16
- 2024-10-14