随着DeepSeek掀起的大模型平权潮的到来,功能趋同的基座模型已难以形成差异化优势,高质量数据正取代模型选型成为AI核心竞争力。在此背景下,数据管理不再仅是IT基础设施工具,而是AI价值创造的关键枢纽,成功的数据企业必须深度介入AI价值链,实现从“数据治理”到“数据智能”的转变。自2023年生成式AI崛起以来,美国数据企业Scale AI和Databricks估值两年间分别上涨98.0%和109.3%,Palantir股价上涨912.2%,备受数据产业参与主体及投资者关注。以其为代表的海外领先数据企业,均开始通过立足产业痛点环节向AI全栈服务延伸、以AI原生工作流重塑产品形态、以新商业模式拓展产业价值边界等方式,构筑AI时代竞争新优势。
三大领先数据企业的发展路径
尽管技术路径迥异,但Scale AI、Databricks和Palantir等领先企业均已实现AI与数据的深度绑定,并成功将技术优势转化为商业成功。
Scale AI从数据标注服务转型为AI基础设施提供。Scale AI成立于2016年,旨在通过自研工具链与机器学习辅助预标注,为自动驾驶等企业提供较传统人力标注更精细高效的服务及高质量数据。例如,早在2021年,Scale AI已通过AI辅助标注的方式,在几周内将丰田的标注效率提高了10倍。2022年前后,Scale AI逐步从数据标注服务拓展至以企业级数据平台为基础的全栈式AI服务,即服务于政企客户从AI数据治理到生成式AI应用的落地部署和商业闭环全流程。例如,其推出的大模型决策平台Donovan,整合多源情报生成作战建议,获美国防部采用,从数据供应商跃升为AI基础设施提供商,2025年6月获Meta投资后估值已超290亿美元。
Databricks从数据存储平台升级为智能数据治理平台。Databricks成立于2013年,旨在解决传统架构中的数据孤岛和冗余迁移问题,帮助客户应对多模态数据处理、实时性及治理能力等挑战。例如,其于2020年结合数据湖的开放性和数据仓库的结构化功能,推出创新的Lakehouse湖仓一体数据技术架构,并将其应用于原生执行引擎产品Delta Engine中,推出时与当时AWS、Azure和Google Cloud上的主流云数据仓库相比,运行查询时间大幅缩短了91.1%,成本降低了63.4%至90.2%。2023年年底,Databricks通过运用AI模型深入理解企业数据的语义、革新数据管理,在数据湖仓上搭建数据智能平台Data Intelligence Platform,成为当时业界唯一拥有跨数据和AI的统一治理层,并涵盖ETL、SQL、机器学习和商业智能的统一查询引擎,2024年其年度经常性收入达到30.4亿美元。2024年年初其为电信运营商推出的数据智能通信平台,为美国无线运营商T-Mobile统一了供应链欺诈检测、订单跟踪和支出管理等60多个数据源,将业务分析失败率从40%降低到近0%,成为该公司技术架构基础。
Palantir从数据分析决策工具延伸到“数据+AI”一站式解决方案。Palantir成立于2003年,前期主要面向政府和企业提供关联分析决策平台Gotham与Foundry,将杂乱数据映射为业务关系网,以本体论建模这一核心技术见长。例如,美国煤气电力公司曾使用Foundry搭建电网完整运行图景,实现在2.5万英里电线空间范围内火灾风险的预测识别,减少了99%的野火烧毁面积。2023年,Palantir正式推出“数据+AI”一站式解决方案AIP,使用户可利用大语言模型完成各种任务和临时分析,无需复杂设置或技术专长即可与文档及配备企业特定信息和工具的智能助手进行交互,2024年其年度经常性收入达到28.7亿美元。例如,美国餐饮企业温蒂汉堡借助AIP自动化库存管理和资源分配决策流程能力,对6500家餐厅进行实时订单和库存跟踪,在5分钟内解决了以往数周才能解决的问题。
共同的成功密码与行业启示
Scale AI、Databricks与Palantir的发展轨迹看似不同,却共享三大底层逻辑,为AI时代的数据企业指明方向。
一是聚焦产业核心痛点场景,逐步向AI全栈服务延伸。领先企业不止步于工具层,在聚焦AI落地中高质量数据获取难、数据与AI流程割裂、AI应用与业务知识融合难等根本问题的同时,逐步完善全栈式AI开发能力。例如,Scale AI通过AI辅助标注+众包,解决自动驾驶等高价值场景的数据稀缺问题;Databricks通过湖仓一体统一存储与计算、以数据智能平台串联实验与部署,让数据与AI团队无缝协作;Palantir通过本体论建模将行业规则编码为机器可读逻辑,使AI输出符合业务语境的行动建议。而现阶段,三家均已围绕AI开发全流程打造多功能的工具及服务。
二是积极拥抱AI原生工作流,重塑产品形态。传统数据管理工具多为“被动响应”需求,而AI时代要求平台主动赋能智能应用。例如,Scale AI的合成数据生成、Databricks平台上原生集成的AI/BI GENIE自然语言对话式商业分析工具、Palantir的自然语言问答功能,均体现“AI优先”设计理念,它们不仅管理数据,更让数据直接驱动智能行为,实现从“支撑系统”到“价值创造引擎”的跃迁。
三是探索新商业模式,拓展产业价值边界。突破传统一次性授权或单纯售卖资源工具的局限,领先数据企业已尝试围绕AI时代客户的持续价值创造需求,设计更贴合业务成效与长期合作的收益机制。例如,Scale AI开创“数据即服务+AI基础设施”的订阅制,按数据量与调用次数收费,绑定长期客户;Databricks推行“开放核心+云服务分成”,通过开源建立生态,云收入反哺研发;Palantir采用“高黏性定制+结果付费”方式,在政府与金融等高价值场景实现高毛利。这些模式突破了传统软件许可制,更紧密对齐客户成功,打开增长空间。
(作者单位为研究院)