智微智能(001339)：战略投资元川微加码边缘及端侧AI推理赛道

频道：主持人日期：2026-03-16 03:03:07 浏览：37

　　事项：　　智微智能全资控股曜腾投资，2026 年3 月2 日，杭州元川微科技有限公司完成工商变更，深圳市曜腾投资成为其新进股东。　　国信计算机观点：1）元川微是国内LPU 架构先行者：国内首家专注于AI 实时推理算力芯片的初创企业，技术路线上回归AI 推理的之一性原理，产品精准满足行业对确定性超低时延、高吞吐算力、极致能效比及高性价比的核心诉求，为边端智能提供高效、可落地的算力基础设施。2）LPU（Language Processing Unit，语言处理单元）专为推理设计的AI 芯片：其核心是张量流处理器（TSP）的设计和实现，TSP 将功能单元转移到核心之外，以2D *** 方式排列，每一列只包含特定类型的功能单元（称为切片Slice）。指令流沿着垂直方向（南北方向）运行，数据流沿着水平方向（东西方向）运行，TSP 可以确定在每一个时间点，X轴流动的数据和Y 轴流动的指令恰好交叉，进行运算，运算结果会向东或向西传送到下一个切片进行下一步处理，而指令控制单元（ICU）同时在更底部的切片发出新的指令。3）LPU 具备高输出、低时延、低能耗优势：根据Artificial Analysisi 披露数据，以Llama 3.3 Instruct 70B 为测试对象，Groq 的输出速度（Output Speed）为306 Token/s，业内领先；Groq 的端到端响应时间（End-to-End Response Time）为2.4s（输出500 个Token），业内领先。根据Thunder Said Energy 披露数据，推理领域，LPU 的每Token能耗不到GPU 的1/4，能耗优势明显。4）投资建议：基于Token 出海、国内大模型快速发展，智算需求快速增长，公司2026 年智算业务有望快速增长；此外，27 年LPU 服务器产品有望开始放量，打开第二增长曲线，上调盈利预测，预计2025-2027 年收入44.96/58.24/71.62 亿元（前值为46.93/53.27/59.60 亿元），归母净利润1.99/6.14/7.30 亿元（前值为2.21/2.69/3.29 亿元），当前股价对应PE=92/30/25x，维持“优于大市”评级。5）风险提示：传统主业所处行业下行的风险、产品价格下行及毛利率下降的风险、部分产品依赖单一大客户的风险、贸易保护主义和贸易摩擦风险等。　　评论：　　智微智能战略投资元川微，加码边缘及端侧AI 推理赛道2026 年3 月2 日，杭州元川微科技有限公司完成工商变更，深圳市曜腾投资成为其新进股东。元川微是国内LPU 架构先行者，亦是国内首家专注于AI 实时推理算力芯片的初创企业，技术路线上回归AI 推理的之一性原理，产品精准满足行业对确定性超低时延、高吞吐算力、极致能效比及高性价比的核心诉求，为边端智能提供高效、可落地的算力基础设施。　　LPU（Language Processing Unit，语言处理单元）：专为推理设计的AI 芯片发展历史：2016 年初创公司Groq 成立，率先提出LPU 概念；2023 年Groq LPU 开始小规模商用，2024 年GroqCloud 正式上线，开始大规模商用；2025 年12 月24 日，英伟达以200 亿美金收购Groq，为英伟达历史上更大规模的收购。　　硬件架构：LPU 的核心是张量流处理器（TSP）的设计和实现，传统的多核芯片平铺结构（每一个小方块Tile 代表一个处理核心），核心由一组功能单元组成，负责不同类型的计算（算术运算、内存运算、逻辑运算、指令控制等），而TSP 将功能单元转移到核心之外，以2D *** 方式排列，每一列只包含特定类型的功能单元（称为切片Slice）。　　数据流和指令流：TSP 以SIMD（单指令多数据）方式执行指令，此处每个切片由20 个Tile（方块）构成，且单个Tile 可处理16 个数，则其共可处理320（=20*16）个元素的向量。指令流沿着垂直方向（南北方向）运行，数据流沿着水平方向（东西方向）运行，TSP 可以确定在每一个时间点，X 轴流动的数据和Y轴流动的指令恰好交叉，进行运算，运算结果会向东或向西传送到下一个切片进行下一步处理，而指令控制单元（ICU）同时在更底部的切片发出新的指令。　　LPU 设计原则：LPU 设计包含四大原则，分别是以软件为先、可编程流水线架构、确定性的计算和 *** 、片上（On-Chip）存储。　　原则一：软件为先。同传统的GPU/CPU 的调度器相比（采用动态调度），LPU 采用静态调度方案，核心在于编译器，可以把每一条指令、每一条数据规划精确到纳米级；　　原则二：可编程流水线架构。同传统GPU 的Hub and Spoke 架构不同，LPU 采用可编程流水线架构，不需要等待计算、内存资源，亦无需额外的控制器，流水线运行平稳高效，完全同步；　　原则三：确定性的计算和 *** 。为了使流水线高效运行，必须对每一步所需时间进行高度把控，则LPU每个执行步骤的时钟周期是可预测的。　　原则四：片上（On-Chip）存储。LPU 在片上同时包含计算单元和存储单元，大幅提升数据读存速度，以Groq LPU 为例，SRAM 的内存带宽高达80TB/s。　　LPU 在Token 输出速度、时延、能耗等领域具备优势根据Artificial Analysisi 披露数据，以Llama 3.3 Instruct 70B 为测试对象，Groq 的输出速度（OutputSpeed）为306 Token/s，业内领先；Groq 的端到端响应时间（End-to-End Response Time）为2.4s（输出500 个Token），业内领先。根据Thunder Said Energy 披露数据，在推理领域，LPU 的每Token 能耗不到GPU 的1/4，能耗优势明显。　　盈利预测：智算需求快速增长，上调盈利预测　　假设前提　　我们的盈利预测基于以下假设条件：　　行业终端业务：1）PC 类产品：公司为同方计算机、紫光计算机、宏

上一篇：2026金石奖 | 大地保险：大地暖阳“八个一”助老助残服务方案

下一篇：天眼查数据：起底AI投毒涉事力擎GEO公司

智微智能(001339)：战略投资元川微 加码边缘及端侧AI推理赛道

相关文章

智微智能(001339)：战略投资元川微加码边缘及端侧AI推理赛道