首页 >综合 > > 正文

激战千亿参数多模态大模型!APUS亮剑:蒸馏四大精炼模型,连推7款AI产品

2023-04-19 01:19:03 来源:凤凰网

作者 | 程茜


(相关资料图)

编辑 | 心缘

智东西4月18日报道,今天下午,全球化智能手机操作系统企业APUS发布了天燕大模型AiLMe,并发布国内首份多模态大模型技术白皮书《天燕大模型技术白皮书》。该公司是以工具类产品为基础衍生出一些内容产品、服务等。

天燕大模型AiLMe是APUS训练的千亿参数规模多模态大模型,具备对文本、图像、视频和音频的理解和生成能力。在天燕大模型基础上,APUS蒸馏出“异雀八”文本模型、“异雀三”图像模型、“异雀四”视频模型、“异雀六”音频模型,能满足更具体、细分的应用场景。

在此基础上,该公司还推出一系列AI产品,包括智能问答大师、简笔成画、墨染、Daily Astro、Star Night等,综合运用、组合四大蒸馏模型满足用户的需求。

APUS创始人兼CEO李涛说:“人工智能的发展目前还处于‘公元前’,呈现出百花齐放的状态,未来随着技术路线的成熟,这一产业将会诞生出更多创新的应用场景。”

一、AiLMe:千亿参数、22倍模型训练度、两大智算中心

APUS天燕大模型AiLMe的参数规模达到1000亿。天燕大模型AiLMe的训练数据来自互联网公开网页数据、互联网公开语料库、行业数据以及APUS产品和服务的场景数据。

目前,该模型达到了22倍的模型训练度(即用22倍于模型参数规模的训练数据来训练大模型),能实现以千亿参数规模接近更大规模参数的训练效果。

同时为了支撑大模型的训练,APUS已经在郑州和新加坡建设了智算中心。

在通用性大模型的基础上,APUS蒸馏出能针对更细分用户需求的文本、图像、视频、音频模型。当用户提出生成内容的需求时,AiLMe会自主选择图像、视频、音频的插件,APUS已经将大模型学会使用的工具放到插件库,AI就会去判断使用哪一工具来生成更能满足用户需求的内容。

同时,当用户使用相应产品时,其生成的结果也会沉淀下来,作为后续模型迭代的基础。

目前,多模态大模型的发展趋势分为四个阶段,分别是具有感知能力,学习和使用工具,目标驱动、多AI协作,以及与真实物理世界交互。

多模态大模型已经具备了对图片、视频、音频的理解能力,并且出现了学习和使用工具的雏形能力,而目标驱动和多AI协作已经成为一大研究趋势。

目标驱动可以理解为在一家公司中,一个员工制定了全年和季度目标后,AI将其拆解为更加具体的行动计划。

同样,放到一家公司里,多AI协作就相当于让公司里的不同角色、岗位的员工相互协作,因为组织的力量远远大于个人的力量。

目前,AiLMe已经具备了前两个阶段的能力。而APUS针对于大模型的未来路线图包括两大部分,分别是开放API的生态建设以及实现目标驱动、多AI协作的AI能力增强。

二、基于文字、图像、视频、音频四大蒸馏模型,推七大产品

目前,APUS已经基于天燕大模型AiLMe开发了七款产品,基于通用大模型蒸馏出的文本、图像、视频、音频模型去提升用户体验。

基于“异雀八”文本模型的“智能问答大师”,除了可以为用户提供通用型知识问答外,在一些法律、医疗等较为专业的领域,通过精炼模型支撑提高生成答案的质量。

这一产品还为用户提供了多个场景的使用需求,例如小说续写、诗歌创作、工作总结等。

AI绘画工具墨染是基于“异雀八”文本模型和“异雀三”图像模型构造的。其并不是只由图像模型支撑,原因在于很多用户输出文本时,对于细节的描述可能有所欠缺,而文本模型可以对提示词进行一定的补充,帮助AI更好的理解用户的意图。

此外,墨染还可以输出表情包、进行修图、生成海报、包装设计等。

另一个AI绘画工具是基于“异雀三”图像模的简笔成画,该工具采用的是图生图。用户绘制一个较为简单的简笔画,然后上传到APP中,就可以生成多种风格的图片。相比文生图的模式,这一实现过程能让用户的控制力更强,生成的图像会保留用户简笔画中的素材,保证画作保留一些用户生成的基本信息。

基于异雀三图像模型还有一个工具是AI占卜塔罗牌,其卡牌风格都是通过AI生成。用户选择相应卡牌后,AI会结合星座等对用户的运势进行解读。

此外还有集成“异雀八”文本模型、“异雀三”图像模型、“异雀四”视频模型、“异雀六”音频模型的Star Night助眠产品。其可以为用户一句话生成故事内容和语音,并根据内容生成故事插图。下一步,APUS计划为其搭载检测用户睡眠习惯的功能,以制定出更符合用户睡眠习惯的助眠功能。

针对于海外用户,APUS基于“异雀八”文本模型和“异雀三”图像模型推出了KJV Bible Now产品,这一产品能够为海外基督教用户提供在线灵修服务。其中的AI祷告功能,可以帮用户生成很多张祷告图片供用户选择。据了解,目前每天有超百万的用户在使用这一功能。

此外,数字人功能可以让虚拟牧师为用户阅读圣经、答疑解惑。

最后一款产品是基于异雀三图像模型和异雀四视频模型的PicPik,为用户提供了高效、高质、低门槛的AI创作平台,可以在3-5秒内生成。

该产品支持AI换装、AI换脸,其通过高精度CV识别,能够清晰识别面部并进行分割,还原脸部所有特征,再加上高精度骨骼检测,能还原图片中人物原有的姿态,最后基于其图生图能力,能对图片中的服装、背景进行二次生成。

对于通过AI视频融合人脸的能力,PicPik在肤色切换、脸部遮挡、侧脸和胡子上都能实现很好的适配。

三、国内创企突围方向:架构和技术路线迭代,算力是“纸老虎”

谈及对人工智能的理解,APUS创始人兼CEO李涛认为,此次生成式AI热潮是不亚于互联网出现的具有革命性意义的事件,并且其影响和价值已经远远超过互联网,可以称之为一场全新的工业革命。

这意味着IT产业从手工时代进入了工业化时代。在人工智能出现之前,整个软件开发都是手工时代,人工智能到来之后,一些信息化的工作、信息产业正在大踏步进入工业时代,李涛透露,现在,APUS几乎所有图片、图标以及超一半的视频生成都是通过人工智能完成的。

并且,这次革命产生的深远影响可能会影响到包括工业、农业等传统行业在内的全产业链。此前,互联网的出现并没有对一些传统行业产生影响,李涛认为其原因在于对于这些行业的效率提升不够。而人工智能则会成倍提升这些行业的效率,这也是当下为什么全行业都投入到这个机会中的原因。

再说到大模型,大模型就相当于人工智能时代的操作系统,其会全面革新整个IT产业和IT时代,并且大量的产品、应用和服务都会基于大模型研发出来。大模型对于AI时代的到来具有划时代意义。

不过,李涛也感慨道,事实上,中国人工智能确实起步较晚。但就整个行业来看,人工智能还处在较为早期的阶段,他坚信架构和技术路线的迭代可能帮助中国快速大踏步的追赶上走在前列的公司。

国内人工智能产业的发展分为四个阶段,分别是现有信息系统提效,现有产品服务改造和重构,新场景、新物种,全产业升级。目前,APUS已经完成了现有信息系统提效。

对于现有产品服务改造和重构阶段,李涛认为人工智能第一个应用的方向就是IT产业,最快产生价值的领域就是内容生产。

未来随着人工智能的发展,这一产业将会出现如互联网时代出现的搜索引擎、微信、QQ等全新的人工智能时代的场景和物种。他补充说:“作为互联网从业者,我们只有跑步上车,才能捕捉到产生新物种的机会。”

最后,当前面三件事快要完成时,就会出现全产业升级,让传统的工业、农业也能集成人工智能,此前互联网对农业的改造和提升很低,没有办法预测天气、降水、蝗灾等,而人工智能将大规模提高它的效率。

更底层来看,大模型需要具备四个要素,分别是场景、数据、算法、算力。

就场景而言,国内的场景十分丰富,这并不是制约国内大模型发展的门槛。

但数据是中国企业做大模型第一个遇到的问题。因为目前中文语料库很小,据了解,ChatGPT语料库里中文语料不超过3%,这也会极度限制大模型的发展,不能让大模型变得更聪明。李涛谈道,中文数据孤岛的情况高于全球。

对于算力,李涛认为算力是“纸老虎”,凡是用算力解决的都是暴力解决,还是因为算法训练的不够好。

中国所有的企业大部分算法的精进都不是从0到1,而是基于前人的积累实现从1到10、10到100,另外一方面再从1到0,去反向补足。

算法也是这其中非常有挑战的事情。这是因为此前国内企业在基础研究方面投入很低,很多时候是应用研发。如今,产业的发展已经指明了人工智能的大方向,基于这样的预期,李涛认为未来会有足够多的研发力量投入到算法中,并取得好的进展。

结语:大模型时代,创企要比巨头跑得快

人工智能颠覆内容生成行业早已经出现端倪,李涛谈道,早在2018年,他们就看到了这一机遇,并且推出了智能抠图、人脸融和、3D漫画脸、换发型等功能。如今,生成式AI产业的爆火更为这一产业的发展指明了方向。

此外,算力暴力激增的同时,也有研发人员发现,训练参数规模并没有对训练效果产生决定性影响。斯坦福大学发布的Alpaca模型仅有130亿参数规模,其性能就可以与GPT-3.5匹敌。这也给了创企在这一产业施展拳脚的底气。

不过,对于创企而言,其在资金、人才投入上与巨头玩家有着绝对的差距,因此如何产生一些创新的应用,并比它们跑得更快,才是大模型时代创企与巨头玩家竞争的关键。

标签:

x 广告
x 广告

Copyright ©   2015-2023 港澳劳务网版权所有  备案号:京ICP备2023022245号-31   联系邮箱:435 226 40 @qq.com