百家乐游戏规则 AG真人百家乐-美女荷官发牌 首页 > 百家乐游戏规则

AG真人官方网站特斯拉加速冲向自动驾驶

浏览: 发布时间:2024-07-29 11:19:13

  特斯拉称其尺寸大概为1立方英尺,明显比黄仁勋展示的那块DGX A100要小☆▼•●▲-。

  上述三个超算以GPU为核心,和特斯拉的需求并不完全吻合,马斯克在提问环节表示,CPU、GPU等通用处理器,并不是为神经网络训练而准备的,特斯拉基于ASIC打造的D1芯片,比通用的GPU更好…•○●。

  随着各环节对AI的需求越来越强烈▷▲◆,特斯拉希望神经网络拥有更好的性能、并可以引入更大规模的神经网络模型○◆△◆◇■,这些也对硬件提出更高的要求。

  FP32是当前深度学习的训练和推理中最常用的格式▲◇=,以上述简单的参数来看△◆…•△=,在同样的制程下★□○△▲,特斯拉D1以更小的芯片面积-◇▼,更少的晶体管数量…▷,FP32性能却实现了超越▲●▷•◇,确实是更胜一筹◆▷◆◁•△。

  对于深度神经网络的训练来说,标注是个相当大的问题,没有标注的数据是无法拿来用的,而对于特斯拉这样拥有超大规模数据的公司来说AG真人官方网站,人工标注的方式显然是不可持续的。

  特斯拉在全球拥有一支1000人左右的数据标注团队,这支团队由Andrej Karpathy领导◁-□★▼。这些团队将视频数据中的物体在特斯拉打造的○•▪•“矢量空间”(Vetor Space)中进行标注,特斯拉称可以实现一次人工标注,机器可自主标注所有摄像头的多帧画面。

  本次特斯拉发布的Dojo第一代•=●◁-,将于2022年推出,特斯拉自己立了个Flag,下一代Dojo将实现10倍性能的提升。

  这和特斯拉当时打造FSD芯片的思路如出一辙:市场上并没有没有成熟的可用于神经网络的自动驾驶芯片•△☆●★,继续引领着整个自动驾驶行业、汽车行业☆□◆=▽☆。伊隆-马斯克再次向世人展示了他一贯的高效专注,在与特斯拉的竞争中,于是特斯拉花了18个月自己设计了FSD芯片。会给出答案◆◆●△■。

  尽管特斯拉展示了高超的复刻现实的技术,让人对未来会产生无限的遐想,但在此时此刻-=●,特斯拉的目标只有一个——用更低的成本更快地实现自动驾驶。

  到了落地层面,特斯拉仍然采用一直坚持的垂直一体化的方式,从芯片级到系统级再到集群☆▼-◆,以及软件,特斯拉全栈自研○★○●○。

  而本次特斯拉将25片D1封装进了一个节点,单节点的算力达到9PetaFLOPS★□-○●★,特斯拉称之为Training Tile。

  到集群层面,特斯拉之前基于英伟A100打造的Dojo原型机▷△★☆-,集成了720个DGX A100节点■▼◁,共5760块GPU,造价粗粗计算已经超过1亿美元○▽○▽,算力可达1★◁••.8ExaFLOPS。

  节点,对应着“模组”☆▲▷◁▪,英伟达A100的单个节点,采用8个A100组成了DGX A100,售价高达19.9万美元。对★=▼▽,就是当时老黄从烤箱中取出来的大家伙。

  特斯拉基于公开的数据•●▷☆,单方面宣称-▲…▷,其自研的芯片在浮点运算能力(下图横坐标)上领先于英伟达等厂商。

  软件方面,从2018年开始,特斯拉开始推动用深度神经网络来为Autopilot重写软件◆▲▲,在此之前,特斯拉主要采用C++等传统程序来写软件◇◁▷◆。

  在云端,特斯拉本次推出的Dojo是其专用方案的开端--,对于一个2030年要卖2000万的车企来说,其拥有的数据也将会急剧膨胀,数据的规模足以支撑其走专用化的道路,专用化也会更加高效。

  硬件方面,在车端,FSD芯片也是专为自动驾驶所开发的,相对于其他的通用方案是更加高效的。

  在特斯拉称为Training Node的内部结构是这样的◆▽▷▲,特斯拉为这些核心设计了低延迟▷★◇★▷☆、高带宽的方案。

  到集成层面,我们可以用“电芯-模组-电池包▲=△•★”的概念来理解超级计算机的系统●…○○,分别对应着超级计算机的•◁☆■•“芯片-节点-集群”。

  在这次活动上,特斯拉AI高级总监Andrej Karpathy再次重申了特斯拉打造自动驾驶的想法,“我们希望能够打造一个类似动物视觉皮层的神经网络连接▪▽☆-■=,模拟大脑信息输入和输出的过程AG真人官方网站。就像光线进入到视网膜当中☆◁,我们希望通过摄像头来模拟这个过程。”

  用通用的方案,砸钱会让这个事更快吗?如果要达到更快▷◁,需要付出的成本又是多少?

  在发布会后,马斯克在推特上回复网友提问时表示,ExaPOD的运算能力足以模拟人脑。

  另外,除了在感知▼★•▲、训练等方面▼•★▽,特斯拉也在更多环节引入人工智能算法▲-◇☆-,例如在规划环节▪☆◇=,特斯拉本次也展示了其AI算法的应用=○…▼▪•。

  特斯拉称,目前可以在一周内完成1万个视频的采集和自动标注。在这次的活动上,特斯拉甚至还展示了通过多辆特斯拉的数据来实现联合标注。

  尽管更大的尺寸意味着更多的晶体管,也就意味着更强大的性能,但我们也看到,特斯拉并没有太在芯片尺寸上较劲,而是把更多的精力放在了芯片架构上。

  布置在云端的训练中心,也是特斯拉自动驾驶的最后一块拼图,在这里,自动驾驶产生的大量数据被喂给深度神经网络,AI三架马车在这里齐头并进■▼,最终输出超出人类能力的结果▲◁-▪▪△。

  D1和A100,一个是专用ASIC芯片,一个是通用的GPU芯片,在芯片架构上存在巨大的差异。

  总之□=★◇•,更好的性能、更低的能耗水平、更低的软硬件成本。基本上,特斯拉在其他领域也是这些要求。

  砍掉所有的旁枝末节,专注在深度神经网络+纯视觉,是特斯拉实现自动驾驶的技术路线。

  它颠覆吗?至少这一代还不算很大的颠覆,但它开创了自动驾驶公司或汽车公司打开专用计算集群的先河□△▪◆。也许下一代的Dojo,特斯拉才会给我们更大的惊喜。

  在答疑环节□○▽△★,特斯拉称在芯片的集成环节,应用了大量的汽车电力电子技术,例如在顶部和底部均采用了液冷方案。

  特斯拉在AI Day展示的所有产品和能力,仍然只是为自动驾驶服务,All for AD,Only for AD。

  像特斯拉这样=▼,在所有的方案上都高度定制化▼▽,甚至实现了闭环=-…■○,经济性和效率绝对是高的★●▪,但是会更快吗?

  多任务学习HydraNets神经网络架构用来处理感知的问题,通过8个摄像头画面拼接,3D鸟瞰图得以实现,纯视觉开始成为可能。

  在这套逻辑的背后☆▪•,是特斯拉拥有业内最大的车队,拥有最大的数据规模,这些车队每天为深度神经网络提供大量数据,从最开始的图像数据,到现在的视频数据=▲◇。

  在Dojo之前,特斯拉已经于今年小试牛刀,布置了三个超级计算机集群,分别用于自动标注、训练、训练▽-■●■。

  这场发布会引起了全世界科技人士的围观,十分推崇VR的美国科技博主Robert Scoble直接倒戈特斯拉,他表示▲•…▼=-“特斯拉是真正的元宇宙公司=▼▽,Facebook不是,苹果不是,谷歌不是,Niantic不是,其他公司更不是,它(特斯拉)是如此超前AG真人官方网站■□▲▪。”

  Dojo的出现◁△▼…,是为了解决视频数据的训练问题▷◆•,准确地说是,用更低的成本、更快速◆▲□○•、高效的进行AI训练。

  在此前的GTC 2017上,皮衣哥曾表示■□△=□,-●…•“目前制造高性能GPU有一个很严重的限制——芯片尺寸的限制▷☆▲…,因为目前现有技术的光刻机受限于光刻模板、光刻光源,几乎不可能制造出更大的GPU核心”。

  简单说下最后一个▲▪▷…▷,特斯拉AI高级总监Andrej Karpathy曾在CVPR 2021上对外展示过这一集群,当时被认为是Dojo的原型机,为了方便表述▽◇,后面我们直接称之为Dojo原型机,这个集群使用了720个由8个英伟达A100 Tensor Core GPU组成的节点,共5760个GPU,可达到1.8ExaFLOPS级别的性能•▽。

  如果要评价特斯拉Dojo☆□,在芯片层面…★◆…,它变得更加为自动驾驶专用,甚至说是第一代的自动驾驶计算集群都不过分;在封装或Pack层面•▽●=◁,集成度更高,提升了计算效率□◆▷▼◆。

  在英伟达GPU的SM内部-▼,Tensor Core是支撑AI和高性能计算的核心◆▽☆=★,即可将精度自动降低到TF32和FP16等级别…□,来运行深度学习网络的大模型;也可以将精度提升至FP64,来为天气=▲■=、能源等提供高准确性的计算。

  D1芯片上采用的是分布式计算架构,D1芯片上的计算单元为Training Node(训练单元),每个芯片由354个Training Node组成■▼-▪○…,下图中方块表示。

  把所有的资源都倾注到深度神经网络、纯视觉这条路线上去,目前在各种硬件通用方案上狂奔的中国新势力车企们■□◁▪☆,也许,他把所有与自动驾驶无关的东西统统都拿掉▷☆。

  关于车端的FSD芯片●△▲▪•▽,在发布会后的提问环节,马斯克表示正在开发中的Hardware 4.0的能力将是Hardware 3.0的4倍=◇•◆▪,新硬件将会与Cybertruck一起面世。

  在这次活动上◁☆◆••,特斯拉在云端部署的超级计算机Dojo正式露出真面目,伊隆-马斯克在活动最后略带调侃地发布了机器人Tesla Bot,这两个将在明年才能就绪的硬件引发了讨论热潮。另外,特斯拉还介绍了在AI、自动驾驶软件等方面的最新进展。

  作为对比,同样采用7nm制程的英伟达A100 Tensor Core GPU,也就是特斯拉目前在用的,其芯片面积是826平方毫米=■★▽,晶体管数量542亿颗,TDP(热设计功耗)为400W,FP32峰值算力为19.5TFLOPS。

  下图是英伟达在去年发布的基于Ampere架构打造的GA100完整架构图,绿色部分为计算单元(SM,Streaming Multiprocessor流多处理器)■◁,图中一共有128个SM•▪•,A100 GPU是在这个架构基础上删减的,拥有108个SM单元□=▲◆▽□。

  2020年,黄仁勋在发布A100 Tensor Core GPU时表示,这是目前可量产的尺寸最大的7nm芯片。