
龙芯近日举办了盛大发布会股票配资怎么赚钱,正式推出龙芯 3C6000 系列服务器处理器、龙芯 2K3000/3B6000M 工控与终端处理器,甚至预告了下一代 CPU 微架构。
与此同时,龙芯还回顾了在 GPU 图形核心领域的发展历程,首次披露了未来多代技术和产品规划。

龙芯的主业是 CPU 通用处理器,而做 GPU 的最初目的很简单,就是为了解决和龙芯 CPU 的配套问题,因为当时面临着进口低端 GPU 芯片供货不稳定不畅通、嵌入式 GPU 不适合桌面市场的情况。
有了自己的 CPU、GPU,龙芯就可以形成自我配套,形成系统优势,降低系统成本。
早在 2016 年,龙芯 GPU 项目就立项了,这个时间可能比很多人想象的都要早很多。
2017 年开展图形算法调研;2018 年进行总体架构设计,同时开展结构模拟器设计;2019 年完成模拟器验证,转入逻辑与结构设计阶段。

龙芯 2K2000

龙芯 7A2000
2020 年,龙芯首款 GPU LG100 诞生,应用于龙芯 2K2000 处理器、龙芯 7A2000 桥片 ( 搭配 ( 龙芯 3 号系列 ) ,性能接近 AMD R5 230,至此龙芯完成了 GPU 结构设计与验证的全套工作。
2021 年的 LG110 属于小幅迭代升级,在相同面积下算力性能提升了一倍,也用于龙芯 7A2000。
2022 年的 LG120 则是又一次迭代,主要是提高了光栅化精度,优化了图形与算法,龙芯 2K2000 后期用的就是它。

龙芯的 GPU 设计是从零开始自研的,没有依赖境外 IP,也没有历史包袱,技术上也早期的固定功能流水线、可编程流水线阶段,直接进入了统一渲染流水线架构。
当然,龙芯 GPU 起点并不算高,初期仅能支持 OpenGL 2.1、OpenGL ES 2.0,但已经能够基本满足现代桌面应用的显示需求,可靠性和兼容性也都得到了市场验证,尤其是大幅降低了龙芯终端的成本。
迄今为止,LG100 系列的出货规模已经超过了百万颗。

2021 年,LG100 系列持续迭代的同时,龙芯就启动了第二代 LG200 的调研与整体设计。
这一次,龙芯调整了 GPU 设计思路,从统一渲染架构进步到通用计算架构,将以往的图形处理为中心,变成了计算为中心,这不亚于又一次从零起步。
之所以这么快转换方向,因为龙芯意识到,未来将是计算的天下,即使是图形处理也以计算任务的形式存在。可以说,这也为后续的通用计算、AI 处理发展打下了基础。
经过漫长而复杂的设计、验证、迭代、磨合,加上配套驱动开发,一直到 2024 年,LG200 才最终完工,用于这次发布的龙芯 2K3000/3B6000M。
从路线图上看,它也会有一个迭代升级版本 LG210,预计会在后期的龙芯 2K3000/3B6000M 中使用。


龙芯 2K3000/3B6000M 中集成的 LG200 GPU,图形性能有了成倍的提高,像素填充率从 2GP/s 提高到 4GP/s,纹理填充率从 2GT/s 提高到 8GT/s,还支持 OpenGL 3.3、OpenGL ES 3.1、OpenCL 1.1。
LG200 还初步支持通用计算加速和 AI 加速,运行目标识别等 AI 任务、大语言模型等都没有问题。
这可以说是龙芯的第一款 GPGPU 产品,官方宣称 900MHz 频率下 FP16 单精度浮点性能 230.4 GFlops ( 2304 亿次每秒 ) 、INT8 整数性能 7.2 TOPS ( 7.2 万亿次每秒 ) 。
事实上,它的频率最高可以达到 2.2-2.5GHz,适当开放频率的话 FP16 浮点、INT8 整数性能分别可以达到 256 GFlops、8 TOPS。

GPGPU 可以说是图形处理器历史发展的第四个阶段,将通用计算、图形渲染合为一体,一肩挑,这也是现代 GPU 的基础特性。
对于龙芯来说,CPU 补课基本完成,GPU 依然还在补课阶段,尤其是 API 支持,之前落后太多,下一步将逐步支持 OpenGL 3.2/4.0、OpenCL 3.0 ( 虽然它已经基本凉凉 ) ,并加入新的 Vulkan 1.1。
什么?你说 DirectX?这是个封闭标准,纯自研的国产 GPU 暂时还做不到,除非买 Imagination PowerVR 之类的国外 IP 授权。
性能方面,龙芯 GPU 将首先继续升级架构,全面实现基本功能,然后扩展功能和性能,全面优化挖潜,逐步实现图形流水线、计算性能的可扩展,大力提高能效比、单位面积性能。

这就是龙芯说的"先通后专"的发展路线,也就是先做好通用的 GPU,再做好专用的 GPGPU,尤其是在 AI 方面,当然现阶段主要面向端侧的 AI 推理,满足日常应用。
至于云侧的 AI 训练,那是 AI 加速卡的工作,龙芯至少目前不考虑。
龙芯未来的 GPGPU 也要分为三步走,并开启一个全新的龙芯 9A 系列,也可以叫 LG300 系列。

龙芯 GPGPU 的架构设计,看起来和 NVIDIA 的颇为相似,也是分为多个 GPC ( 图形处理集群 ) ,彼此通过 L1N 网络互连。
所有 GPC 加上二级缓存,通过 L2N 网络连接各个顶层模块,包括内存控制器、指令处理器、显示控制器、视频编解码控制器、PCIe 控制器。
不同硅片之间,还可以通过 LCL 龙链进行互连,大大扩充芯片规模和性能。
再深入来看,GPC 内部由一条 GP 图形流水线、多个 SP 流处理器组成,而每个流处理包括一个纹理单元、多个矢量单元,而每个矢量单元又包括 16 个 FP16 单精度浮点单元、1 个 FP32 双精度浮点单元、1 个 Tensor 张量单元 ( 就差 AI 单元了 ) 。
每个单元的性能指标,也都已经确定。

需要强调的是,龙芯 GPGPU 虽然自研,但并不封闭,原则就是兼容主流、拥抱开源。
作为一套加速计算平台,龙芯 GPGPU 将具备全方位的能力,计算 API 方面不但支持传统的 OpenCL,更是提出了兼容 CUDA ( 暂不清楚会如何做到 ) ,可支撑训练、推理、微调等全场景 AI,覆盖云侧、边缘侧、端侧全领域。
此外,图形 API 会紧跟 OpenGL、Vulkan 两大行业主流,视频编解码加速支持会逐渐覆盖更多格式。

龙芯 9A1000:
已经进入设计尾声阶段,即将完成流片,2026 年推出。
这将是龙芯首款 GPGPU 专用芯片,通过它初步走通和验证设计思路,可用于独立显卡、AI 加速卡。
它的定位比较低,成本也比较低,性能大致相当于 AMD 7 年前的入门显卡 RX 550,但已经支持曲面细分、计算着色器等特性,不过图形 API 仅支持到 OpenGL 4.0 ( RX 550 OpenGL 4.6 ) 。
集成视频编解码模块,支持最常见的 H.264、H.265。
AI 推理性能方面,预计 INT8 整数格式下达到 32-40 TOPS。

龙芯 9A2000:
2027 年推出,将达到主流性能,实现完整功能,用于桌面和服务器。
通过架构优化、堆料双管齐下,大力提升性能单位比,整体性能可以提升大约 4 倍,比如 FP16 浮点达到 5 TFlops,INT8 整数达到 160 TOPS。
它还将首次支持双硅片互连,性能再翻一倍,达到同工艺下的国际先进水平。
图形 API 方面终于可以支持到 OpenGL 4.6,张量单元支持包括 BF16 在内的更多数据格式,还加入虚拟化支持。
龙芯 9A3000:
暂无时间表,将首次冲击高端高性能,工艺和龙芯 CPU 一样演进到 xnm,频率有望得以大幅提升股票配资怎么赚钱,性能再次实现 3-5 倍的跃升。
博易配资提示:文章来自网络,不代表本站观点。