非遗年终总结（非遗年终总结报告）

六八 2023年08月10日 14:52 151 0

非遗年终总结（非遗年终总结报告）第1张

Unnao，正好利用这个时间聊做往后两年的归纳，顺便展望呵呵未来的一些想法标题里的“非众所周知”主要是因为在硬体子公司工作，能公开披露的内容要严格合规子公司政策，所以归纳的口径有所取舍用两个关键词来描述往后两年的状态，那应该是“感恩“，因为往后两年从身边的不同同僚身上获得了巨大的支持和协助，工程项目组内的同学Cattenom，还包括他们的peer们，跨组的同僚们，和他们的一线、二线甚至三线的manager们的协助。

无论是在用例的认知上，还是在工程项目组工程项目的安排上，他们都获益颇深加入NV以后，他们关于下层AI校对的经验主要集中在软件配置管理稀疏微分上，并且相较偏具体内容横向场景多一些往后两年，他们对排序稀疏微分的强化及怎样应用AI校对控制技术展开求解的控制技术脉络称得上有了两个相较完整（但同时也还浅显high-level）的认识。

还记得他们在和一名同僚聊天时，他提到他对搞清楚一段程序继续执行过程中每条命令消耗的时钟周期数，和怎样结合下层硬体的命令特性展开更合适的时空对齐有着很强的热情和兴趣，他们深以为然下层用例的深入认知是两个众所周知的水磨功夫，现在的他们还有太多未知需要去填补，但是从方法论的角度来说，这一块的软肋目前称得上补上了。

而通用强化和横向强化的差别，往后两年他们也有了更多直白的感受两者的核心差别是，意见反馈调整信道的长短，和所支撑销售业务的多样性和规模大小不一，间接决定了具体内容管理手段的差别两个众所周知的范例就是PTX命令的前向相容性对总体控制技术栈重构增添的挑战。

另两个范例就是发布排序库的binary size大小不一对重构管理手段提出的捷伊要求有更多时间花在专注的控制技术思考上他们一度困惑过，在职业成长的路径里，是不是到了很大某种程度以后，就很大要把更多精力分配在庶务协作和销售业务关系的汪柏翻转上。

在NV的管理体系里，他们一方面亲身体验到了以一种更hands-on贴近用例的方式推进组织机构协作和工程项目规划，另一方面也接触到了不少十分十分hands-on的现职同僚比如他们曾经在和一名十分现职的同僚探讨两个workload的操控性预测控制技术细节时，牵涉到对PCI-E随不同消息包尺寸的latency/throughput效率变化的趋势推论，他间接现拉出来他他们以后写的两个benchmark程序，展示了呵呵他测试的操控性数字的控制技术细节，来提醒他们不要太过于相信基于硬体spec排序的理论操控性指标。

还有一次陪一名同僚和两位硬体结构设计的CTO探讨两个捷伊proposal是否能进入到某一代硬体里时，现场的两位CTO以一种让我吃惊的速度快速地对这个proposal牵涉到的耗电、面积和潜在收益展开了控制技术细节的探讨，然后给出了两个大体的推论。

因为兴趣爱好的原因，我对这些现象背后可能的成因还真做了一些跟进和预测目前的认知有几个在组织机构结构设计上，要对不间接分担管理职责，或分担弱管理职责的senior people展开穿鞘，使得其能在不拥有间接（或有限）report line的情况下，能驱动起相当多数量的继续执行资源。

在实际的意见反馈管理体系里，对更hands-on的员工要展开很大的加权倾斜这点其实都能求值为要尽可能最强化组织机构内的行政协作开销，在子公司的总体价值创造链条里增加事的占比，减少庶务协作的占比，最强化职能部门墙对组织机构协作增添的阻碍（很多大型组织机构内的职能部门墙虽然经常被人非议，但同时也是组织机构复杂到很大某种程度以后，确保组织机构继续执行精确性的两个基础保障）。

最强化行政协作开销的两个必要条件是，需要组织机构内有一大批具备足够hands-on经验和意愿的管理者，这些管理者需要覆盖从基层到高层的岗位并且子公司的激励管理体系要在分配的分布上展开相应的结构设计，来尽量减少对internal competition不必要的激化，这是减少职能部门墙的两个必要条件。

但是，在尽量减少internal competition的同时，怎样保持组织机构的活力，避免出现所有人一起吃大锅饭导致组织机构失去活力的极端情况，又是另两个需要平衡的组织机构结构设计点了在总体的组织机构结构设计上，老黄的影响力起到了至为关键的作用。

有了更多时间能专注在控制技术思考上，就有机会把一些以后有过涉猎，但某种程度不够深入的控制技术方向展开了更细致的探索（当然这离不开真正在做最hands-on工作的同僚们的协助），比如模型强化层面的低精度训练推理及结构化稀疏，大模型训练牵涉到的各种精细的分布式策略和下层不同通信机制的收益权衡，单卡强化里各种形形色色的fusion pattern，一些以后他们没有机会去仔细关注的新型的workload（当然也少不了现在hot的generative AI的相关workloads）对排序硬体增添的挑战和机会，硬体迭代重构过程中对编程模型增添的捷伊探索空间等等。

这些认知汇总在一起，让他们得以更进一步丰富了对AI全栈强化控制技术管理体系的认知也开始有信心把这些认知结合他们过往的一些经验展开更具体内容的落地和验证曾经有两个朋友对他们说，工作到了很大某种程度以后，除了完成两个个具体内容工作，拿到实际的结果以外，还应该开始关注对更多未知的探索，结合他们的实际环境，做有意义的”大实验“，来为行业增加更多有益的元素。

他们深以为然刚加入NV的时候（大约在2021年11月左右），有不止一名同僚对他们的AI校对的背景很感兴趣，会问到他们关于MLIR在NV控制技术栈里的可能性彼时他们的答案十分间接，我觉得MLIR是个好东西，但MLIR更多是个实现手段，在对NV现有的控制技术栈现状建立起足够认识以后，我不觉得有必要考虑MLIR。

时间推移，现在也已经有若干个他们间接参与的工程项目都开始在推进MLIR控制技术和现有工程项目的结合和验证了几年前，他们曾经想尝试推进两个很大范围的AI校对器的建设工程项目，因为种种原因（最主要的还是他们的能力不足，没能结合当时的客观环境找到更合适的破局点）没能达到他们期望的状态。

现在，有了两个捷伊playground来基于MLIR展开AI软件栈的方法论的探索，也是两个有趣的螺旋式的回环不过，稍微鸡汤一些的说法，没有当初的经历，是不是也不容易有现在的一些想法和进展呢？所谓无心插柳柳成荫的背后，往往是因为有过一次或多次有心栽花花不开的经历了。

捷伊两年，期望能和同僚们在目前已经推进的几条控制技术探索的路线上，走得更加深远，拿到更多的意见反馈，为建设更好的AI软件全栈系统增加些微砖瓦最后仍然是个小广告，对我上面提到的AI全栈强化的工作内容感兴趣的同僚，欢迎邮件联系我juney@nvidia.com. 。

本文地址： https://6868968.com/zsfx/97832.html