大模型做小,变成“生活搭子”方有生命力|南方产业观

4月10日,商汤科技举办2025技术交流日活动,推出“日日新第六代大模型”体系,通过多模态长思维链训练、全局记忆、强化学习的技术突破,形成领先的多模态推理能力,并突破成本边界。
普通用户并不能快速理解这些深奥的技术,但此次技术交流日的展示区,生态应用解决的都是一些生活中看起来很小、很琐碎的痛点。
比如,最近笔者就注意到,带有扫描功能的智能点读笔已经走进不少家庭,学龄前小朋友对这种点到哪就能读到哪的互动式学习常常爱不释手。能激发儿童的求知欲,让小朋友主动探索,家长自然乐得慷慨解囊。
但这类产品有一个比较大的问题,由于点读内容是提前内置的,需要配套的绘本,也许一根点读笔不贵,但要想获取新的内容,就需要源源不断购买指定的配套书籍,偏偏厂商赚的就是这些定价不菲的钱,没几个月下来,这些绘本很容易就塞满整个书柜。

但这一次,内置了“商量语言大模型”的商量App,对图书页面拍照扫描后,只需几秒钟就能读懂页面上的文字内容并复述出来,甚至能够对画面内容进行评析。这意味着,大量过往的非有声图书也可以重复利用,对家庭来说减轻了不少购书的成本。
有了这样的“学习神器”,人工智能进家庭,也就是自然而然的事情了。商汤此前推出的对弈机器人,解决的正是技术与工程难题,把AlphaGO大算力塞进小实体,不失为一种巧妙。
那为什么以前做不到呢?答案就在于,大模型的“多模态模型”的发展。过去内置的人工智能是一种较为纯粹的语言模型,但其实有很多的知识都蕴藏在大量的图像、视频,甚至3D等等其他模态中,没有完全地把这些知识真正用来提升原来的文本。
从人类学习的路径来讲,即使是知识的含量一样,多模态的学习方式可能效率会更高。其实想想,我们从小到大学习数学、几何、物理、化学实验,甚至学习交通规则、玩游戏的说明书等等都是多模态的,所有的武林秘籍都得是多模态,否则也学不会。
具备了这种多模态的人工智能大模型,智能程度就有了一个突飞猛进的质变。比如说,同样是辅导小朋友功课,过去是通过纯文字输入输出,但如今在解答几何题时,它还能画图做辅助线,能辅导的年龄层次又往上提升了一大截。
这种“小切口大机会”的逻辑,与特斯拉用Model S打开电动车市场异曲同工:先用极致效率攻克一个高需求场景,再以标准化能力横向吞噬更广阔的市场。
不只是在家庭教育,此次现场也可以看到不少小场景的应用,发挥着降本增效的作用,比如,保险核赔的例子,健康核赔一般超过3000元都要人类审核,但审核就要3-7天的时间。小额会自动,但反向抽检又会发现漏赔率很高。因为这种问题有单子手写的、不同的表头,又有发票等等,但现在多模态大模型,具备了通用性,使得它走进更多实用场景中,成为人们的“日用品。”
过往人工智能有非常多远望星空的场景,包括从宏大的城市治理,探索宇宙的本源,诺贝尔奖的探索,人类认知的边界,都是非常宏大的叙事。圣人之道,无异于百姓之日用,随着模型的通用性越来越强,发现很多场景在于百姓之日用。每天的使用,真正意义上辅助了人工智能的通用模型的大规模发展。
期待更多前沿科技飞入“寻常百姓家”,成为“生活搭子”,这才是一个有生命力的大模型。
南方+记者 郜小平
【作者】 郜小平
南方产业观察