智微智能(001339):战略投资元川微 加码边缘及端侧AI推理赛道

频道:主持人 日期: 浏览:2
  事项:  智微智能全资控股曜腾投资,2026 年3 月2 日,杭州元川微科技有限公司完成工商变更,深圳市曜腾投资成为其新进股东。  国信计算机观点:1)元川微是国内LPU 架构先行者:国内首家专注于AI 实时推理算力芯片的初创企业,技术路线上回归AI 推理的之一性原理,产品精准满足行业对确定性超低时延、高吞吐算力、极致能效比及高性价比的核心诉求,为边端智能提供高效、可落地的算力基础设施。2)LPU(Language Processing Unit,语言处理单元)专为推理设计的AI 芯片:其核心是张量流处理器(TSP)的设计和实现,TSP 将功能单元转移到核心之外,以2D *** 方式排列,每一列只包含特定类型的功能单元(称为切片Slice)。指令流沿着垂直方向(南北方向)运行,数据流沿着水平方向(东西方向)运行,TSP 可以确定在每一个时间点,X轴流动的数据和Y 轴流动的指令恰好交叉,进行运算,运算结果会向东或向西传送到下一个切片进行下一步处理,而指令控制单元(ICU)同时在更底部的切片发出新的指令。3)LPU 具备高输出、低时延、低能耗优势:根据Artificial Analysisi 披露数据,以Llama 3.3 Instruct 70B 为测试对象,Groq 的输出速度(Output Speed)为306 Token/s,业内领先;Groq 的端到端响应时间(End-to-End Response Time)为2.4s(输出500 个Token),业内领先。根据Thunder Said Energy 披露数据,推理领域,LPU 的每Token能耗不到GPU 的1/4,能耗优势明显。4)投资建议:基于Token 出海、国内大模型快速发展,智算需求快速增长,公司2026 年智算业务有望快速增长;此外,27 年LPU 服务器产品有望开始放量,打开第二增长曲线,上调盈利预测,预计2025-2027 年收入44.96/58.24/71.62 亿元(前值为46.93/53.27/59.60 亿元),归母净利润1.99/6.14/7.30 亿元(前值为2.21/2.69/3.29 亿元),当前股价对应PE=92/30/25x,维持“优于大市”评级。5)风险提示:传统主业所处行业下行的风险、产品价格下行及毛利率下降的风险、部分产品依赖单一大客户的风险、贸易保护主义和贸易摩擦风险等。  评论:  智微智能战略投资元川微,加码边缘及端侧AI 推理赛道2026 年3 月2 日,杭州元川微科技有限公司完成工商变更,深圳市曜腾投资成为其新进股东。元川微是国内LPU 架构先行者,亦是国内首家专注于AI 实时推理算力芯片的初创企业,技术路线上回归AI 推理的之一性原理,产品精准满足行业对确定性超低时延、高吞吐算力、极致能效比及高性价比的核心诉求,为边端智能提供高效、可落地的算力基础设施。  LPU(Language Processing Unit,语言处理单元):专为推理设计的AI 芯片发展历史:2016 年初创公司Groq 成立,率先提出LPU 概念;2023 年Groq LPU 开始小规模商用,2024 年GroqCloud 正式上线,开始大规模商用;2025 年12 月24 日,英伟达以200 亿美金收购Groq,为英伟达历史上更大规模的收购。  硬件架构:LPU 的核心是张量流处理器(TSP)的设计和实现,传统的多核芯片平铺结构(每一个小方块Tile 代表一个处理核心),核心由一组功能单元组成,负责不同类型的计算(算术运算、内存运算、逻辑运算、指令控制等),而TSP 将功能单元转移到核心之外,以2D *** 方式排列,每一列只包含特定类型的功能单元(称为切片Slice)。  数据流和指令流:TSP 以SIMD(单指令多数据)方式执行指令,此处每个切片由20 个Tile(方块)构成,且单个Tile 可处理16 个数,则其共可处理320(=20*16)个元素的向量。指令流沿着垂直方向(南北方向)运行,数据流沿着水平方向(东西方向)运行,TSP 可以确定在每一个时间点,X 轴流动的数据和Y轴流动的指令恰好交叉,进行运算,运算结果会向东或向西传送到下一个切片进行下一步处理,而指令控制单元(ICU)同时在更底部的切片发出新的指令。  LPU 设计原则:LPU 设计包含四大原则,分别是以软件为先、可编程流水线架构、确定性的计算和 *** 、片上(On-Chip)存储。  原则一:软件为先。同传统的GPU/CPU 的调度器相比(采用动态调度),LPU 采用静态调度方案,核心在于编译器,可以把每一条指令、每一条数据规划精确到纳米级;  原则二:可编程流水线架构。同传统GPU 的Hub and Spoke 架构不同,LPU 采用可编程流水线架构,不需要等待计算、内存资源,亦无需额外的控制器,流水线运行平稳高效,完全同步;  原则三:确定性的计算和 *** 。为了使流水线高效运行,必须对每一步所需时间进行高度把控,则LPU每个执行步骤的时钟周期是可预测的。  原则四:片上(On-Chip)存储。LPU 在片上同时包含计算单元和存储单元,大幅提升数据读存速度,以Groq LPU 为例,SRAM 的内存带宽高达80TB/s。  LPU 在Token 输出速度、时延、能耗等领域具备优势根据Artificial Analysisi 披露数据,以Llama 3.3 Instruct 70B 为测试对象,Groq 的输出速度(OutputSpeed)为306 Token/s,业内领先;Groq 的端到端响应时间(End-to-End Response Time)为2.4s(输出500 个Token),业内领先。根据Thunder Said Energy 披露数据,在推理领域,LPU 的每Token 能耗不到GPU 的1/4,能耗优势明显。  盈利预测:智算需求快速增长,上调盈利预测  假设前提  我们的盈利预测基于以下假设条件:  行业终端业务:1)PC 类产品:公司为同方计算机、紫光计算机、宏