财政部唯一指定政府采购信息网络发布媒体 国家级政府采购专业网站

服务热线:400-810-1996

新质生产力下的大模型产业化

2025年06月06日 14:10 来源:数字中国打印

  商汤科技董事长兼CEO——徐立

  非常高兴能够在这里分享商汤对科技在如此大模型数据化和资产化的情境下,如何有效利用我们的数据要素。

  首先,在整个行业中,现在大模型的生成和制造遵循一个被认为是经验性公理的尺度定律。这个尺度定律表明,随着模型参数量、数据规模、训练时间的增加,模型的性能得到显著提升。因此,性能的整体提升速度很快。这也解释了为什么计算资源已经成为这个时代的核心资源之一。

  我们也看到,西方大量地投入计算资源作为核心基础设施。但更重要的是如何更有效地利用好数据。很多人认为数据的好坏无法区分,实际上,并非如此尽管数据质量都有所下降,但下降的速度和程度,例如指数β,其实是不同的。

  所以,我们的尺度定律在某种程度上可以为不同的数据资产打分,能够跨越5—7个数量级的尺度,保持对性能的预测,并在较小的尺度上验证性能优劣。因此,我们进行了很多关于数据的实验。在一些真实的场景和问题下,我们发现当一个模型在同样的数据集上,小在较的尺度上领先时,在大较的尺度上也会领先。这不仅涉及推理计算、语言知识等问题,而是基于数据本身的质量,而不是仅凭经验的分数。

  我们对三个不同数据集在两个问题下进行了数据质量的打分,可以看到,斜率越大,说明性能提升越快。有了这个指数,才能真正对数据质量进行区分。也就是说,我们不需要极大的算力,可以用一些小模型配合更高质量的数据,打造同样的性能。例如Llama 80亿参数的模型性能要比Llama2 700亿参数的模型还要好,关键就在于数据质量的差异。

  我们在4月份发布的SenseChat日日新V5模型,是国内首个性能超过GPT4- Turbo的,模型其成功的原因在于我们对行业数据进行了细分,并且在这些数据上下功夫了很大的。

  我们理解,在中国开发大模型的过程中,有一个很重要的行业优势在于如何利用好感知能力,对理解能力赋能。比如说比如在通用生成方面,我们发现,在很多垂直领域中,数据的构造与我们对这些垂直领域能力的理解是相关的。

  举几个例子,比如说模态的理解。举例来说,这是一张手表的图片,如果无法识别出来它的时间,就无法生成对应的描述。我们还可以识别出这是什么品牌的表手,这是一张英文考卷,可以识别出上面英文题目的意思,并用中文进行各种互动。当然,很多情况下需要理解图片背后的意思,比如,左边是一只可爱的恐龙,右边是一只真实的恐龙,上面写着“我妈第一次叫我吃饭”“我妈第二次叫我吃饭”。让AI来理解这张图,就会知道一般妈妈第一次叫你吃饭脾气比较好,第二次叫你吃饭时会表现出不耐烦,我想这种概念大家都能理解。

  但是如果我们没有在垂直方向上的理解,就很难真正意义上泛化这些问题。因此,中国在数据利用方面的核心优势在于结合非常大的产业化数据理解。

  再来看生成,文本讲多了,用图片举例子。方面以为如果我们要生成一张具有国家地理风格的图片,不理解这种风格就很难生成出高质量的结果。左边是我们生成的图片,右边是行业中最好的,包括OpenAI的成果。在横向对比中,我们认为我们的模型目前在这一领域具有一定的领先性。

  这是一个亚洲女孩的美术摄影,头发略微凌乱,对细节的把握非常重要。在特定行业中,例如文字识别,如果你不认识这个文字,就很难生成正确的内容。我们的品牌挂到一栋楼上,只有,我们生成的图片是正确的。再比如,如果我们能够识别福建话,我们当然可以生成福建话,但如果不行的话,生成过程就会变得非常困难。因此,行业场景的叠加是数据资产在大模型使用中最核心的产业化要素。

  构造行业场景差异化数据时,可以将大模型的数据分三层,与其能力有关,第一层叫世界知识,这是一个单纯的记忆层,知识背后核心还是推理。真正意义上形成高质量数据的核心在于从一个知识点到另一个知识点背后的思维链。

  举例来说,平行公理是一个数学公理,三角形内角和是180度,这当中的证明就是推理,一个模型的思考能力来自其背后强大的推理能力。因此,对于一些行业来说,如何构造更好地推理数据是非常重要的。跟世界的交互执行能力,有了交互数据才能更加丰富模型的核心能力。所以,我认为可以通过行业构造一个三层数据能力模型。

  垂直领域的数据差异化就是在这三层当中。比如,医疗方面就会明显超GPT4越-,在一定垂直领域,你的数据比它更专业,构造的思维链数据就会更加高端。    所以,我认为数据要素在整个环境当中,模型的生成本身就是一种数据要素的消耗。而模型服务则是数据要素再次资产化的过程,因此,这构成了一个完整的以数据为核心的生产资料,为生产力带来突破的飞轮,我相信,这也是未来大模型时代具有巨大行业潜力的原因之一。

  大家知道《时代周刊》通常用人是以物来做封面,少有用技术做封面。1997年,《时代周刊》用了克隆羊做封面。2015年,《时代周刊》用了虚拟现实做封面。2018年,用人工智能做封面。然而,这些技术的发展直到今天,仍未真正成为我们生活中不可或缺的基础元素。这是为什么呢主要原因在于叠加的应用并没有那么充分,并不是改变我们生活当中基础要素的部分。

  去年ChatGPT又被放到《时代周刊》上,我认为ChatGPT火不是因为GPT,而是因为GPT本身的Thansformer架构,这在2018年已经成为行业共识,ChatGPT真正的叠加应用才是它的革命性时刻。在中国,最不缺的就是垂直化数据,也希望借此跟大家一起推动这个时代应用型的变化。

  谢谢大家!

  (以上内容根据嘉宾发言速记整理)