TensorRT优化方案图例
图 12. TensorRT 循环由循环边界层设置。数据流只能通过下方式离开循环环输出层. 唯一允许的后边缘是第二个输入递归层。
图 13. 一个 if 条件构造抽象模型
图 14. 使用控制条件执行 IIf条件输入层 放置
图 15. 层执行和在 CPU 端启动的内核。
图 16. 内核实际运行在 GPU 上,换句话说,显示了 CPU 端的层执行和内核启动与在 GPU 端的执行之间的相关性。
图 17. 布局格式 CHW: 图像分为 高×宽矩阵,每个通道一个,矩阵按顺序存储;一个通道的所有值都是连续存储的。
图 18. 布局格式 HWC: 图像存储为单个 高×宽矩阵,值实际上是 C 元组,每个通道都有一个值;一个点(像素)的所有值都是连续存储的。
图 19. 一对通道值打包在一起 高×宽 矩阵。结果是一种格式,其中[C/2]高x宽 矩阵的值是两个连续通道的值对。
图 20. 在这个 NHWC8 格式,一个高×宽 矩阵包括所有通道的值。
图 21. 正常情况下的性能指标 trtexec在 Nsight Systems (ShuffleNet, BS=16, best, TitanRTX@1200MHz) 下运行。
参考链接:
https://docs.nvidia.com/deeplearning/tensorrt/developer-guide/index.html
标签:矩阵,TensorRT,图例,内核,格式,优化,通道 来源: https://www.cnblogs.com/wujianming-110117/p/15686107.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。