黑马雷达 / 第002期 / 2026年3月 / 阅读时间约15分钟
本文从推理成本的三条压缩曲线切入,拆解商业模式重写的传导路径,绘制赢家与输家的竞争全景,点名被市场低估的早期机会,并给出可持续追踪的关键变量信号。读完本文,你将理解为什么”成本曲线”是AI时代最重要、也最被主流投资人忽视的坐标系。阅读要点:① 三条压缩曲线为何同步加速;② SaaS订阅制将如何被重写;③ 谁在赢,谁在输;④ 被低估的三类早期机会;⑤ 左侧投资者应追踪的三个核心变量;⑥ 投黑马的分层布局建议。
一、为什么推理成本是当前最被低估的投资变量
2026年3月,AI推理成本趋零正在成为一级市场最被低估的结构性变量。如果你问一位主流VC”AI投资最重要的变量是什么”,十有八九的答案是:模型能力、数据护城河、或者某个垂直场景的渗透率。
推理成本,鲜少出现在这份答案里。
这是一个认知错位。在我们看来,推理成本的下降曲线,是当前AI产业链中最具确定性、传导链路最清晰、也最被一级市场系统性低估的结构性变量。
数字先说话:2023年初,调用GPT-4处理一百万个Token的成本约为60美元。2025年底,同等质量的推理成本已跌至不足1美元,跌幅超过98%。更关键的是,这条曲线的斜率没有放缓的迹象——驱动它的三条压缩路线,正在同步加速。
2025年初,DeepSeek R1的横空出世是一个历史性的信号时刻——不是因为它的模型能力超越了GPT-4o,而是因为它用大约六百万美元的训练成本,复现了需要数亿美元才能达到的推理质量。这件事向全球一级市场宣告了一个此前只有少数人相信的命题:推理成本的下降,不受制于任何单一公司的意志,它是一股结构性力量。
但市场的主流反应,仍然停留在”这会不会影响英伟达的股价”这个层面。
真正值得追问的问题是:当让AI执行一次复杂任务的成本趋近于零,被颠覆的不只是某一个行业——而是”规模需要人力堆砌”这一商业文明运转了数十年的底层假设。
这是这篇文章真正想讨论的事情。
二、三条压缩曲线:为什么这次不一样
理解推理成本为什么会持续下降,需要看清驱动它的三条独立曲线——每一条都有自己的技术逻辑,三者叠加形成了一个几乎不可逆的合力。
第一条曲线:硬件竞争侵蚀垄断溢价
英伟达的GPU在AI训练领域的统治地位是真实的。但推理不是训练——推理对内存带宽的依赖远大于对原始算力的需求,这给了挑战者真实的切入空间。
Groq以LPU(语言处理单元)架构将推理延迟压缩至传统GPU方案的十分之一;Cerebras用晶圆级芯片直接绕开了内存带宽瓶颈;国内的摩尔线程、壁仞科技、燧原科技正在将推理芯片产品推向量产。更重要的是,过去三年各大云厂商大规模采购建设的AI算力集群,其硬件成本已完成初始摊薄——在会计意义上,这些集群每增加一次推理调用的边际成本已经趋近于零。
云厂商之间愈演愈烈的推理API价格战,是这一趋势最直白的市场信号。AWS、Google Cloud、Azure在推理服务上的定价已经进入互相跟进式降价的螺旋。这不是商业策略的选择,而是成本结构的必然反映。
第二条曲线:软件优化的自我加速
比硬件竞争更深层的变革,发生在软件侧——AI开始优化AI本身,而且速度越来越快。
量化压缩技术(Quantization)将模型权重从FP32压缩至INT4或INT8,体积缩小至原来的四分之一,而在多数基准测试上的精度损失低于2%。推测解码(Speculative Decoding)让模型在一次前向传播中同时完成多个Token的预测,将推理吞吐量提升3至5倍。KV Cache的持续演进使得长上下文任务中的重复推理成本不断摊薄。
更关键的是:这些优化工作本身越来越多地由AI代码助手完成。人类工程师设定方向,AI完成实现与迭代。这意味着软件优化曲线的斜率,会随着AI编码能力的提升而持续陡峭化——它是一条自我加速的曲线。
第三条曲线:架构创新重写效率天花板
混合专家模型(MoE)架构是这一轮架构革新中最重要的技术方向。与传统的稠密模型相比,MoE在处理每一个Token时只激活全部参数的一小部分——通常在10%至25%之间。这意味着在保持同等模型质量的前提下,推理的计算量可以减少75%至90%。
GPT-4o、Gemini 1.5、Mixtral都已采用MoE架构。更重要的是,这个架构范式正在向开源社区快速扩散,意味着连专有模型的训练成本优势也将被进一步压缩。
三条曲线的叠加效应
这三条曲线不是平行运行的,它们之间存在正向强化关系:更便宜的芯片降低了部署成本,使得更多公司有动力投入软件优化;更好的软件优化使得更小的模型可以完成同等任务,进一步降低对高端芯片的依赖;架构创新则同时作用于训练和推理两端,持续压低整个系统的成本底线。
硬件摊薄是一条算术曲线;软件优化是一条指数曲线;架构创新是每隔12到18个月触发一次的阶梯式跳跃。三者叠加的终点,是推理成本在经济意义上的趋零。
这不是预测,这是正在发生的算术。
三、谁在赢,谁在输:推理成本趋零的竞争全景
成本曲线不是抽象的宏观叙事,它会精确地改变每一类公司的竞争地位。理解谁受益、谁受损,是做出正确左侧判断的前提。
赢家一:按结果定价的垂直Agent公司
这是这场变革中获益最直接的群体。
它们的商业模式从一开始就建立在”完成任务收费”而非”提供访问权收费”的基础上。推理成本趋零意味着它们的执行成本在持续下降,而向客户收取的结果费用却因为确定性溢价而维持稳定甚至上升——这是一个毛利率天然改善的结构。
Harvey(法律Agent)是目前这一模式最成熟的早期样本。它不向律所收取席位费,而是按完成的合同审查数量和复杂度收费。随着推理成本下降,Harvey处理每一份合同的实际成本在缩小,但向客户收取的费用锚定在”一名初级律师完成同等工作的市场价”——这个价格不会随推理成本同步下降。这个剪刀差,是按结果定价模式最核心的价值逻辑。
同类模式的公司还包括:专注医疗文档自动化的Abridge、专注财务合规的Numeric、专注销售流程自动化的11x。它们的共同特征是:深耕单一垂直场景、有独家行业数据、团队来自行业内部而非纯AI背景。
赢家二:推理基础设施层
无论上层应用如何演变,推理请求的总量只会增加,不会减少。成本趋零反而会刺激调用量的非线性增长——当每次推理近乎免费,企业会在更多场景、更高频率地使用AI。
Groq、Cerebras等推理专用芯片公司,以及Together AI、Fireworks AI、Anyscale等推理云平台,处于这个确定性受益的位置。它们卖的不是某个特定应用的成败,而是整个AI推理量增长的基础设施。
输家一:传统SaaS公司
这是这场变革中压力最大、处境最被动的群体。
按席位收费的SaaS逻辑建立在一个前提上:软件功能需要人来操作,所以按人头计费。当Agent可以自主操作软件完成工作流,这个前提开始动摇。
Salesforce、ServiceNow、Workday面临的挑战不是来自更好的竞争对手,而是来自付费逻辑的根基松动——客户开始质疑:为什么要为五十个席位付钱,如果一个Agent可以完成其中四十个人的工作?
Salesforce推出Agentforce,ServiceNow押注AI工作流,本质上都是在用”主动转型”来对冲”被动替代”的风险。但转型的速度能否跟上客户认知迁移的速度,是一个悬而未决的问题。
输家二:人力密集型外包公司
Accenture、Wipro、Infosys等以人力规模为核心竞争力的IT外包公司,面临的是更直接的存在性挑战。
这些公司的商业模式本质是:把人的时间打包成服务,按小时或项目收费。当推理成本趋零使得AI可以以极低成本完成同等工作量,这个模式的定价基础将被系统性侵蚀。
值得注意的是:这个替代不会一夜之间发生,因为企业客户的采购惯性和信任迁移需要时间。但方向是确定的,时间是唯一的变量。
中间地带:云厂商
AWS、Google Cloud、Azure的处境最为复杂——它们既是推理成本下降的受益者(推理调用量增长,云计算总需求上升),也是受损者(推理单价下降压缩GPU租赁收入)。
目前来看,量的增长仍然压过价的下降。但这个平衡点会在哪里被打破,是整个云计算行业值得持续追踪的核心变量。
四、被市场低估的三类早期机会
大厂的竞争格局已经清晰,对于左侧投资者而言,真正的Alpha在大厂战略空白处的细分赛道。我们重点关注以下三个方向:
机会一:按结果定价的垂直行业Agent原生公司
选题框架已在上文建立,这里给出具体的选股标准:
团队构成方面,必须有至少一名来自目标行业的深度从业者——不只是AI工程师,而是真正理解行业工作流痛点的人。纯AI背景的团队很难在垂直行业建立真实的数据优势和客户信任。
数据来源方面,必须有独家或准独家的行业数据获取渠道。这是垂直Agent最核心的护城河——通用模型能力会持续提升,但行业专属数据是大厂无法快速复制的壁垒。
客户验证方面,必须已经有至少三到五家真实付费的早期企业客户,且续约率超过85%。概念验证(POC)阶段的客户不算,因为POC到规模化部署之间存在一道”企业信任门槛”,只有跨越这道门槛的产品才算真正完成了市场验证。
目前值得持续追踪的方向:法律(合同生命周期管理)、医疗(临床文档与编码)、建筑工程(合规审查与造价估算)、跨境贸易(单证处理与合规申报)。
机会二:一人公司基础设施
“一人公司”正在从边缘现象变成主流结构,但服务这个群体的基础设施工具还远未成熟。
当前市场上几乎所有的SaaS工具,设计逻辑都围绕”团队协作”构建——权限分配、角色管理、多人审批流。这套逻辑对一个人指挥多个Agent完成复杂任务的场景完全不适用。
真正面向一人公司的工具,核心设计哲学是单人的杠杆倍率:一条指令能触发多少自动化动作、能调度多少Agent并行工作、能在多少个系统之间无缝流转。
这个赛道目前的早期公司还很少,进入门槛并不高,但找到真正理解这个用户群体需求的团队并不容易。值得追踪的信号:Product Hunt上的新兴工具、独立开发者社区(Indie Hackers、X/Twitter上的建设者群体)中正在快速获得自然增长的产品。
机会三:推理成本可观测性工具
这是一个极其细分、但在未来12个月内将迎来爆发性需求的赛道。
随着企业在更多场景部署Agent,一个新的成本管理问题正在浮现:我的Agent到底在什么场景下调用了多少推理资源?哪些调用是必要的,哪些是冗余的?如何在不损失任务完成质量的前提下优化推理成本?
这个问题目前没有成熟的解决方案。企业只能通过云厂商的账单事后追踪,无法做到实时监控和主动优化。
真正的推理成本可观测性工具需要提供:调用链级别的成本归因、任务质量与成本的实时权衡、跨模型和跨供应商的成本比较基准。这个产品一旦成熟,将成为每一个规模化部署Agent的企业的刚需。
目前这个赛道几乎是空白的。率先在这里建立产品的团队,将在企业预算从”AI探索期”切换到”AI规模化期”的那个时刻,迎来非线性的需求爆发。
五、关键变量追踪:左侧投资者的信号地图
左侧研究的核心不是预测结果,而是识别变量——找到那些一旦发生变化,就会触发市场重新定价的关键信号。对于推理成本趋零这个赛道,我们追踪以下三个核心变量:
变量一:推理单价的下降速度是否维持
这是最基础、也最容易被忽视的追踪指标。
推理成本的下降不是线性的,它会经历技术突破期的陡降、消化期的平台、再到下一次陡降的循环。真正值得关注的,不是某一个时间点的绝对价格,而是下降曲线的斜率是否在维持——这决定了商业模式重写的速度。
我们追踪的具体信号:
OpenAI、Anthropic、Google三家主力模型的API定价变化频率——过去18个月,主流模型的推理价格每3至6个月就会出现一次显著下调。如果这个节奏放缓,意味着技术端的压缩动力在减弱,商业模式重写的时间表需要相应延长。
Together AI、Fireworks AI等推理云平台的报价——这些平台的定价通常领先于主流云厂商,是推理成本曲线的领先指标。
开源模型与闭源模型的性能/成本比收敛速度——当开源模型在特定垂直任务上的表现接近闭源模型的90%,而成本只有其10%,整个市场的定价逻辑将触发一次跃变式重写。这个收敛正在发生,但速度尚未确定。
变量二:企业客户从POC到规模化部署的转化率
融资数据和产品发布都可以被包装,但企业的真实采购行为不会说谎。
当前AI Agent在企业侧的部署,绝大多数仍停留在POC(概念验证)阶段——企业愿意花小钱测试,但真正把核心工作流迁移到Agent上的案例仍然稀少。从POC到规模化部署之间,存在一道我们称之为”企业信任门槛”的屏障。
跨越这道门槛需要三个条件同时成立:Agent的任务完成率稳定在85%以上;有完整的审计、可解释和回滚机制;同行业内出现可被引用的标杆客户成功案例。
我们追踪的具体信号:
Salesforce Agentforce的企业客户数量及续约率——Salesforce是目前企业级Agent部署最激进的传统软件公司,其客户数据是整个企业Agent市场最有参考价值的晴雨表。2025年Q4财报显示已有超过5000家企业完成了Agentforce的初步部署,但续约数据尚未公开披露。
头部垂直Agent公司(Harvey、Abridge等)的ARR增长曲线——这些公司的营收增长速度,是”按结果定价”模式能否在垂直行业真正跑通的最直接证明。
麦肯锡、BCG、埃森哲发布的企业AI采购报告——咨询公司的调研数据通常滞后于市场6至9个月,但它们是企业决策层真实想法的最可靠镜像。当这些报告开始大量出现”Agent ROI为正”的客户案例,意味着信任门槛正在被系统性突破。
变量三:一人公司的规模化程度
这是三个变量中最难量化、但信号价值最高的一个。
一人公司的崛起是推理成本趋零最直接的社会化体现——当个人可以用近乎零边际成本调用AI完成大量工作,”企业规模”与”人员规模”之间的正相关关系将开始解耦。这个解耦的速度,决定了整个劳动力市场和企业估值逻辑重写的时间表。
我们追踪的具体信号:
Stripe的小企业支付数据——Stripe处理了全球大量小型在线企业的支付,其发布的年度报告中关于”独立开发者和小型团队营收”的数据,是一人公司规模化程度最可靠的代理指标。
Product Hunt和AppSumo上的新产品发布节奏——这两个平台是一人公司和极小团队发布产品的主要渠道。如果单人或双人团队发布的产品在这两个平台上的占比持续上升,且获得显著用户增长,意味着一人公司的生产力跃升正在被市场验证。
Twitter/X上”Indie Hacker”群体的月营收公开披露——这个群体有透明分享收入的文化传统,其中出现”单人团队、月营收超过五万美元”的案例频率,是一人公司战斗力最真实的实时数据库。
三个变量的联动逻辑
推理单价持续下降 → 更多企业场景的ROI跑通 → POC到规模化的转化率上升 → 企业Agent部署加速 → 个人也受益于同样的成本下降 → 一人公司生产力跃升 → 一人公司规模化程度提高 → 新的工具需求涌现 → 吸引更多资本和人才进入垂直Agent赛道 → 进一步推动推理成本优化的商业动力。
这是一个典型的正向飞轮。一旦转动,市场的重新定价速度将超出大多数人的预期。左侧布局的窗口,正在这个飞轮启动之前。
投黑马 · 独家评级
赛道热度:🔥🔥🔥🔥🔥 极热,但认知分层明显
左侧机会:⭐⭐⭐⭐ 仍有显著Alpha,窗口收窄中
布局紧迫度:⚡⚡⚡⚡ 建议12个月内完成核心布局
推荐关注层次:
垂直Agent原生公司 > 一人公司基础设施 > 推理可观测性工具
六、分层布局建议与风险披露
布局建议
我们建议将这个方向的布局分为三个层次,根据风险偏好和资金周期灵活配置:
第一层:垂直行业Agent原生公司(中风险,中周期)
这是当前性价比最高的布局层次。企业客户的采购决策周期滞后于技术成熟度12至18个月,这意味着现在布局的团队,恰好卡在企业预算从”观望”切换到”审批”的临界点之前。
选股标准已在第四节列出,核心是三点:行业内部团队构成、独家数据渠道、真实付费客户的高续约率。
时间窗口:建议在2026年底之前完成核心布局,届时企业级Agent的规模化部署案例将大量涌现,估值将进入右侧定价区间。
第二层:一人公司基础设施(低风险,长周期)
这是一个正在形成、但尚未被充分定价的新市场。与其押注哪家具体公司会胜出,不如优先关注那些在独立开发者社区中已经出现自然增长、且创始人本身就是一人公司的产品——他们是在为自己的问题构建解决方案,这是最可靠的产品市场匹配信号。
第三层:推理成本可观测性工具(高风险,短周期)
这是一个时机极为敏感的赛道——太早进入,企业尚未有规模化部署的成本管理需求;太晚进入,大厂会将这个功能内置到自己的云平台中。最佳布局时机,是企业Agent规模化部署案例开始大量出现之前的6至9个月。根据我们对变量二的追踪,这个时机大概率在2026年中至年底之间出现。
风险披露
左侧研究的诚实,要求我们同样清晰地列出这个判断可能出错的理由:
风险一:大模型能力跃升使Agent架构发生根本性变化 如果下一代基础模型(GPT-5或Claude 4级别)的规划和自主执行能力出现质的飞跃,现有的垂直Agent架构可能被快速平替。届时,壁垒建立在”Agent工程能力”上的公司将面临根本性的竞争冲击,只有壁垒真正建立在”独家行业数据”上的公司才能抵御这一风险。这是概率较低但影响极大的尾部风险。
风险二:企业信任门槛的跨越速度慢于预期 如果企业采购惯性和监管合规要求导致从POC到规模化部署的转化周期超过预期,垂直Agent公司的营收增长曲线将被迫延长,资本效率下降。这是当前最需要持续监控的执行风险。
风险三:大厂将可观测性工具内置化 AWS、Google Cloud、Azure完全有能力将推理成本可观测性作为云服务的标配功能推出,届时独立可观测性工具的商业化空间将被大幅压缩。这个风险对第三层布局影响最直接。
风险四:一人公司规模化引发监管响应 当一人公司可以打出中型企业的营收规模,劳动市场的结构性变化将触发监管层的注意。用工认定、税务处理、社会保障等政策的不确定性,可能成为一人公司基础设施赛道发展的外部变量。
结语
三十年前,互联网把信息的边际传播成本压缩至零。
没有人在1994年准确预判到,这件事会同时颠覆零售、媒体、音乐、出行、金融——几乎所有依赖信息不对称运转的行业。
今天,AI正在把智识劳动的边际执行成本压缩至零。
这一次,被颠覆的不是某个行业,而是”规模需要人力堆砌”这个商业文明运转数十年的底层操作系统。
SaaS的席位费逻辑会被重写。复杂流程外包的人力溢价会被侵蚀。大团队作为竞争壁垒的时代正在结束。
这不是危言耸听,这是一场已经开始、只是大多数人还没有意识到规模的静默革命。
左侧投资者的优势,从来不是比别人更聪明,而是比别人更早站在正确的位置上等待。
在聚光灯照亮之前,我们已经在那里。
投黑马 · 信号解读
推理成本的断崖下跌,本质上是一次生产要素的历史性重新定价。
当让AI执行一次复杂任务的成本趋近于零,
所有依赖”人力规模”作为竞争壁垒的商业模式,
都将面临一次无法回避的存在性拷问。
左侧投资者真正需要问的不是”AI会不会颠覆某个行业”,
而是”当颠覆的成本已经趋近于零时,
谁已经在正确的位置上,静静等待重新定价的那一刻”。
── 投黑马研究团队


