ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

自动驾驶网络大学课程W7L2 ML硬件架构

2022-04-12 22:31:59  阅读:133  来源: 互联网

标签:架构 处理单元 ML 编程 Plasticine 课程 内存 W7L2 单元


本周的课程只有一份材料,一般是一周两堂课的,这周只有一堂课。

按一周两堂课的频率,要真正理解每周课程的材料,需要大量的文献阅读才能领会材料讨论的问题。课程材料的选择每份材料都是选了一个研究的热点,内容跨度很大,绝对是高强度的学习,名校果然不同凡响。

说回来,本周课程的材料是一种芯片设计的架构,通过设计可编程的处理单元和内存单元,通过对这些单元的编程可以匹配并行处理的pattern,相当于对可以识别出可以并行处理的部分,并卸载到这颗芯片上去,起到加速的效果。

文章说和FPGA相比,可编程性是对处理单元和内存单元的编程,而FPGA的编程性是基于每个LUT结构,比较复杂和耗时,这颗芯片相当于半定制的结构。

处理单元和内存单元组成网状结构,处理单元采用SIMD结构,内存包括片上内存和片外内存分别存储不同时效的数据。

文章还是异构计算的思路,需要软件配合来识别出可以并行的模式pattern,并将计算任务编译到该芯片中去。

结论:在本文中,我们描述了Plasticine,一种新的可重构架构,它可以有效地执行由并行模式组成的稀疏和密集应用程序。我们确定了捕获稀疏和密集算法所需的关键计算模式,并描述了能够以流水线、向量化的方式执行并行模式的粗粒度模式和内存计算单元。这些单元利用了我们编程模型中关于层次并行性、局部性和内存访问模式的信息。然后,我们使用设计空间探索来指导Plasticine架构的设计,并创建一个完整的软硬件编程堆栈,将应用程序映射到中间表示,然后在Plasticine上执行。我们发现,在113 mm2的区域预算中,与FPGA相比,Plasticine的性能提高了95倍,每瓦特性能提高了77倍。

 

 

标签:架构,处理单元,ML,编程,Plasticine,课程,内存,W7L2,单元
来源: https://www.cnblogs.com/qiuzhiqiuzhi/p/16137910.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有