客户案例

Llama31根本卖不动！业内人士：开源模型成本反而更高

发布日期：2024-08-30 07:01浏览次数：

　　尊龙凯时官方入口Meta的开源大模型Llama 3在市场上遇冷，进一步加剧了大模型开源与闭源之争的关注热度。

　　据报道，Meta的开源大模型Llama 3一直难以在全球最大云厂商——亚马逊的AWS上获得关注，AWS的企业客户更倾向于使用Anthropic的闭源大模型Claude。

　　据微软内部人士透露，Llama也并非微软的销售首选，他们更倾向于将Llama推介给具备数据专业知识的公司，如内部有工程师和数据科学家的公司。

　　Meta现面临挑战，或将激发Meta自建AI产品的销售团队，直面企业需求。而这一系列问题也突显了开源大模型在商业化过程中的困难。从市场选择来看，开源模型的实际效果和商业回报或许均未能满足企业客户预期。

　　面对“开源还是闭源”的问题，国内的各大模型厂商根据自身的技术路线和商业战略，形成了截然不同的立场。那么，企业应如何选择大模型，以及在两者之间如何找到最佳平衡点？

　　在此背景下，百度智能云AI与大模型平台总经理忻舟接受了媒体采访，详细解析了开源与闭源之争的底层逻辑、商业策略，以及对未来市场的预判。

　　忻舟认为，大模型的开源和软件开源有本质区别——开源模型因其并未开放训练源代码、预训练和精调数据等影响模型效果的关键信息，所以无法像开源软件一样，靠社区开发者一起参与来提升效果和性能，而基座模型的训练只能掌握在厂商自己手里。

　　谈及“开源模型和闭源模型谁更贵”时，忻舟表示，开源模型免费，给人一种低成本的印象，但大模型的应用并不仅仅是单一的技术，而是涵盖“技术+服务”的完整解决方案，企业要算“总账”。在业务实际落地时，开源模型若想达到与闭源模型相同的效果，需要后续投入大量的人力、资金和时间，综合成本反而更高。

　　开源模型和闭源模型分别适用于什么场景？忻舟认为，开源模型更适合用于学术研究，但不适合对外提供服务的大型商业项目，在一些百万甚至千万投入的严肃项目中，闭源模型仍然是主角。

　　忻舟：在这场大模型盛宴中，每个厂商的定位和商业模式是不一样的，大致可以分为三类：

　　第一类角色，对于云厂商来说，商业模式其实还是卖算力资源。通过规模化来降低成本、提升资源弹性能力，从而实现盈利，这是云厂商持久不变的模式。不管是开源模型还是闭源模型，只要托管在云厂商这里，云厂商就可以赚到钱。

　　第二类角色，既是云厂商又是模型厂商，他们希望通过模型的调用带动业务上云。目前只靠模型API调用的利润还很低，他们目前期望在市场上占据有利份额，在大模型的牌桌上，不断寻找新的拓展机会。

　　第三类角色，对于创业的模型厂商来说，在各大云厂商宣布模型降价以后，他们的调用量下跌很厉害。大模型领域很快就会变成几大云厂商之战，大模型创企要么专注到特定行业、要么做toB的私有化项目、要么转型做toC产品。

　　对比开源软件，比如像手机操作系统安卓、数据库软件MySQL，这些开源软件是所有的源代码都开放出来，全社会的开发者都可以参与代码的开发。这不仅可以降低软件的研发成本，还能加快软件迭代速度，提升软件安全性，这是开源对于软件的价值。

　　而开源模型要复杂很多，它可以开源的包括模型训练源代码、参数权重、训练数据等。但目前模型厂商通常仅仅开源参数权重，而训练源代码、训练数据等均未开源，这就导致开发者无法去改进它，也就无法对开源模型的效果做贡献。

　　比如对于Llama来说，它每一次模型效果的进步，其实都是 Meta自己训练的结果，而不是开发者参与的结果。Llama2和Llama3在网络结构上没太大区别，它优化的是什么？一方面优化了训练阶段的流程，比如说多阶段训练；另外就是加了很多数据，Llama2和Llama3的数据相差一个数量级，更多的数据和训练时间为模型带来更好的效果。

　　但这些好的效果都是Meta自己搞的，没办法把开发者的力量都用起来的，更不会像开源软件一样有社区反哺的过程。

　　模型训练、数据标注是非常贵的，除非像Meta这样有强大的公司资源用来支撑开源模型持续发展，如果是一个开源模型的创业公司，他就没法形成商业闭环。同时，开发者又不能对你的模型效果做贡献，所以创业公司来做这个一定是越来越落后。再从结果上来看，最好的模型其实还是Open AI，现在评测榜排在最前面的模型都是闭源模型。

　　再说开源模型为什么并不便宜。大模型的应用是涵盖“技术+服务”的完整解决方案，企业应用大模型需要“算总账”。总账怎么算？

　　第一层，要算硬件资源成本。因为闭源的商业模型会配套相应的工具链，包括训练工具链、推理工具链，这些工具链的性能要比开源的好，对于客户来说，训练就能省大概10~20%的硬件成本，推理的时候省得更多，业务规模越大，省得越多。

　　第二层，看模型带来的业务收益。同等参数规模的模型，闭源效果更好，一些客户对于90%还是95%的准确率敏感度没那么高。但是有一些业务，比如说商业广告，在CPM、CTR差一个点，对广告平台来说一天就可能有上千万的出入，这种时候对模型的效果要求越高的企业，就更愿意去买一个效果更好的闭源模型。

　　第三层，还有机会成本、人力成本。用闭源商业模型收敛得更快，就比竞争对手更快推出新的产品。在闭源的商业模型中，厂商把模型和硬件都适配好了，调到了最优状态，客户直接复制成熟经验就可以。但如果你用开源，还要自己去适配调，投入的算力成本、工程师的成本更高。

　　忻舟：大多数企业客户都会采买两种或者两种以上的硬件，因为他要考虑供应链的安全性和灵活性，开源模型如果要在每个硬件上去做适配的话，它的成本会非常高。

　　这就体现出闭源商业模型的优势了，因为它可以通过规模化售卖，来分摊软硬件适配带来的成本。而且，多芯适配是一个非常有技术含量的事儿，百度的百舸异构计算平台专门为多芯异构做了很多优化，对各种硬件都适配。百舸本身就可以屏蔽掉硬件层各种各样的差异，有很多的加速库、推理库、训练库，百舸也为文心大模型提供了端到端的优化。

　　这对于客户的好处是，不管用什么硬件都可以快速跑起来，省下来的时间和人力成本是非常高的。

　　忻舟：总体的思路是：你想在个别业务场景中做尝试、做验证，可以先用闭源模型跑起来，开箱即用，快速验证；在一些动辄百万元、千万元级别的严肃商业项目中，对规模化、精度要求高的业务中，闭源的商业模型还是企业的最佳选择。只有在一些对效果和性能要求不高，但要求必须私有化部署，且对价格又特别敏感的业务场景下，考虑使用开源模型。

　　开源对于学术和研究的推动是有价值的，比如推理的工程性能优化、预训练和精调数据对结果的影响等，如果他能够开源更多的东西，比如说训练代码、训练数据、指令微调的数据等也开放出来，它对于学术研究和技术发展的价值会更大。哪怕只开放了模型权重，也为研究者提供了一个很好的基座模型。

　　5、有些厂商希望开源闭源两条路同时走通，即开源模型吸引用户做大生态，闭源模型专门负责商业化，这个逻辑走得通吗？

　　在公有云上，各厂商公布的调用量中，闭源模型调用量远高于开源模型，说明开源模型其实在公有云上并没有起到吸引用户做大生态的作用。而且在公有云上做微调，开源或闭源模型都可以实现，所以在公有云上客户会直接选择最好的模型。

　　在私有化部署上，这个逻辑在一定程度上是讲得通的。很多企业最开始起步是拿开源模型测试，之后觉得效果不错要买了，会选择开源模型对应厂商的闭源模型，因为同源的模型对于prompt的适应性更好，这种情况这个逻辑是成立的。但这种价值正在逐渐的缩小。因为各厂商的模型通用能力都在快速提升，切换成本越来越低，逐步就抹平了这种模型的传承性。

　　还有一些厂商推出开源模型是为了推广硬件，比如英伟达推出开源模型，它的商业逻辑非常简单，用模型要买卡。

　　忻舟：从各家厂商的调动量上其实已经明确看到，公有云上调用量大的都是商业闭源模型，开源模型对公有云并没有太多影响。

　　而在私有化市场中，随着客户对大模型认知不断提升，开源闭源逐渐不再成为关键因素。我在和很多大型企业客户交流后发现，业务负责人要不要用一款模型有很多因素，按优先级排序通常是：效果、性能、安全、价格。模型开源闭源并不是决定性因素。

　　7、您提到企业在选择模型时最看重的是效果、性能、安全、价格，百度云推出的“千帆大模型一体机”是否正在尝试一种新的软硬一体的商业模式？

　　忻舟：目前，企业使用大模型还处在探索阶段，非常需要低成本、开箱即用的产品来快速验证大模型的使用场景和效果。“千帆大模型一体机”很适合当下的阶段，因为在国内有很多私有化部署的需求，我们的一体机是开放的，各种各样的硬件都可以做适配，集成了市面上所有主流芯片和模型。百度智能云的千帆大模型一体机提供两个能力：

　　第一，提供软硬件适配的一体化平台，这个平台内置了文心大模型和业界主流的开源大模型、场景应用样板间。对于热门的开源模型也都做过适配和优化，用户可以直接在一体机上面跑，无需自己去调模型了。同时，千帆大模型一体机可以提供从基础管控、AI框架、模型训练、预测推理、场景应用于一身的大模型软硬一体解决方案，为客户提供全流程的软硬件服务。

　　第二，千帆大模型一体机因为做了端到端的性能优化，能够把所有硬件性能都榨出来，所以性价比相当高。客户可以以一个较低的成本快速使用。

　　在整体价格上，千帆一体机的价格远低于分别采购服务器和大模型及平台，对于客户来说能够开箱即用。

　　8、现在很多人觉得，光用基础大模型不行，大家还是要做行业模型才能真正实现大模型的产业落地。那目前企业自己训练一个行业模型要多少成本？

　　忻舟：成本很高。首先取决于要训练模型的参数规模，这个成本是线性增加的。其次，取决于数据量有多大。最后，是你的数据标注成本。

　　你如果要从头开始训一个70b的模型，用云的弹性资源可能需要3000万。如果要训参数量更大一点的模型，成本上亿都有可能的。这还是有经验的人去训，如果没经验，中间走了一些弯路，成本就更高了。

　　忻舟：我们不建议客户不管三七二十一的从一开始就做行业基座模型，收益怎么样另说，成本一定非常高。我们会帮助客户先做需求分析。

　　比如说，画一个坐标系，横坐标是任务的敏感性，纵坐标是对行业数据的需求性。所谓任务的敏感性，是指场景是否与行业和业务强相关，比如医疗领域，都是相当专业的问题。纵坐标是对行业数据的需求性，行业越封闭、在公开网络上的数据越少，就越需要做预训练。比如医疗领域，需要把一些脱敏后的病历信息预训练到模型里面。

　　通过分析，在这个坐标轴中，左下角既没有行业特性，又不需要行业数据，就可以直接用通用模型，但右上角对这个行业的业务属性有敏感性，又需要很多的行业数据，这个时候就需要做行业模型。

　　第一步，价值验证。初步建设大模型软硬件基础设施，构建初步的行业大模型。结合相对成熟的生成式AI的应用，快速见到效果。比如通过千帆大模型平台轻量版加上智能客服、企业知识管理、数字人等成熟的应用。

　　第二步，深入对接企业的各种应用。进一步完善大模型基础设施，升级为千帆大模型旗舰版，除了大模型相关的训练调优外，也包含了应用构建的平台。百度及生态伙伴深度参与到企业内部大模型相关培训和运营中，构建技术氛围、培训相关人才，与企业一起攻坚深入业务的难题，给企业带来更多价值。

　　第三步，全面创新和自主可控。企业已经掌握了大模型和应用开发的相关技术，也有了相应的人才梯队，能够更好的自主可控发展并开始全面创新。百度会作为长期技术支持和顾问，协助发展，并不断为企业带来新的技术和方案。

　　第二，基于大模型的应用会有一个大爆发，非常重要的方向就是Agent（智能体）。大模型如果只做“输入、输出“的规定动作，那会大大限制它的价值发挥，他应该更像人，可以使用工具、互相协同、规划思考、反思迭代。它要跟各种各样的组件、插件结合，才能满足特定业务场景的需求，所以Agent会成为接下来各家模型厂商起量的关键。

　　第三，做企业应用的机会会变多，像知识库、客服、数字人、辅助代码编写等场景。比如用大模型做代码编写，百度有一个产品叫“文心快码”，在百度内部已经大规模应用了，采纳率能达到46%，新增代码中生成的比例达到了30%，可以帮助企业大幅提升开发效率。同时，大量做AI应用开发的企业将涌现出来，这些企业能够将应用的部署和复制成本降到足够低，只要运营效率够高，就能脱颖而出。

标签：案件分为哪三类

上一篇：江西一男子当街持刀行凶先后伤害两名女子造成一死一重伤

下一篇：驰而不息狠抓九分落实全面提升法院队伍执行力

客户案例

最新资讯

案例分类三

Llama31根本卖不动！业内人士：开源模型成本反而更高

产品推荐

客户案例

最新资讯

案例分类三

Llama31根本卖不动！业内人士：开源模型成本反而更高

产品推荐

微信号：Wx88888888微信二维码