搜索

岩芯数智自研国内首个非Attention机制大模子,无损提速7倍

发表于 2024-04-24 09:05:15 来源:供认不讳网

 

1月24日,岩芯在上海岩芯数智家养智能科技有限公司“新架构,数智首新模力”大模子宣告会上,自研岩芯数智正式宣告了国内首个非Attention机制的国内通用做作语言大模子——Yan模子。作为行业内少有的机制非Transformer大模子,Yan模子用全新自研的大模“Yan架构”替换Transformer架构,用百亿级参数告竣千亿参数大模子的无损功能下场——影像能耐提升3倍、速率提升7倍的提速同时,实现推理吞吐量的岩芯5倍提升。

 

会上,数智首岩芯数智CEO刘凡平展现:“咱们期望Yan架构可作为家养智能规模的自研根基配置装备部署,并以此建树AI规模的国内开拓者生态,最终让任何人在任何配置装备部署上都能运用通用大模子,机制取患上愈加经济、大模利便、无损清静的AI效率,增长构建普惠的家养智能未来。”

 

Transformer不是大模子的“仅有解”

 

Transformer是当下爆火的GPT、LLAMA、PaLM等大模子普遍接管的根基架构,它的突起无疑是深度学习历史长河中一个紧张的里程碑。凭仗着其强盛的做作语言清晰能耐,Transformer在问世的短短多少年内便取代了传统的RNN收集妄想,不光成为做作语言处置规模的主流模子架构,还在合计机视觉、语音识别等多个规模揭示了其跨界的通用能耐。

 

那末,在Transformer已经占有家养智能规模半壁山河的明天,为甚么岩芯数智还要另辟蹊径,转而谋求非Transformer的更多可能性呢?

 

宣告会现场,刘凡平对于这个下场做出清晰答。他指出,以大规模著称的Transformer,在实际运用中的高算力以及高老本,让良多中小型企业望而生畏。其外部架构的重大性,让抉择规画历程难以批注;长序列处置难题以及无奈操作的幻觉下场也限度了大模子在某些关键规模以及特殊场景的普遍运用。随着云合计以及边缘合计的普遍,行业对于高效力、低能耗AI大模子的需要正不断削减。

 

刘凡平提到:“在全天下规模内,不断以来都有良多优异的钻研者试图从根基上处置对于 Transformer架构的偏激依赖,谋求更优的措施替换 Transformer。就连Transformer 的论文作者之一Llion Jones也在探究‘Transformer 之后的可能’,试图用一种基于进化道理的做作开辟智能措施,从差距角度缔造对于AI框架的再界说。”

 

岩芯数智也不破例,他们在对于Transformer模子不断的调研以及改善历程中,意见到了重新妄想大模子的需要性:一方面,在Attention机制下,现有架构的调解简直已经抵达瓶颈;另一方面,岩芯数智更期望飞腾企业对于大模子的运用门槛,让大模子在更少的数据、更低的算力下具备更强的功能,以运用于更普遍的营业。因此,在历经近1000多个昼夜,逾越多少百次的妄想、更正、优化、比力、重来后,岩芯数智自主研收回了再也不依赖Transformer的全新架构——“Yan架构”,同时,基于Yan架构的通用大模子应运而生。

 

Yan架构:面向技术与落地的双重发力

 

假如说基于Transformer架构的大模子是“耗油且高昂”的燃油车,那末基于Yan架构的大模子,更像是愈加经济、愈加节能的新能源汽车。它去除了Transformer中高老本的留意力机制,代之以合计量更小、难度更低的线性合计,大猛后退了建模功能以及磨炼速率,功能翻倍的同时实现为了老本的骤降。

 

宣告会上,钻研团队揭示了Yan模子以及划一参数规模Transformer模子的大批实测比力,经试验数据表明,Yan架构可能实现比Transformer架构更高的磨炼功能、更强的影像能耐、更低的幻觉表白。

 

在划一资源条件下,Yan架构的模子,磨炼功能以及推理吞吐量分说是Transformer架构的7倍及5倍,并使影像能耐患上到3倍提升。Yan架构的妄想,使患上Yan模子在推理时的空间庞漂亮为常量,因此针对于Transformer面临的长序列难题,Yan模子同样展现优异。比力数据表明,在单张4090 24G显卡上,当模子输入token的长度逾越2600时,Transformer的模子会泛起显存缺少,而Yan模子的显存运用不断晃动在14G摆布,实际上可能实现有限长度的推理。

 

此外,钻研团队初创了一种公平的分割关连特色函数以及影像算子,散漫线性合计的方式,飞腾模子外部妄想的庞漂亮。全新架构下的Yan模子,将掀开以往做作语言处置的“不可批注黑盒”,短缺开掘抉择规画历程的透明度以及可批注性,从而助力大模子在医疗、金融、法律等高危害规模的普遍运用。

 

除了在技术上的突破立异,Yan模子也同时具备了私密化、经济化、精准化以及实时性、业余性、通用性等六大优异商业化落地能耐,堪称是“为落地而生”。

 

失业内共识而言,大模子角逐已经从“卷参数”的时期过渡到了“卷运用”的阶段,行业对于通用大模子的需要亟待处置,故而良多大模子会经由剪枝、缩短等主流技术本领来实如今配置装备部署上的运行,而Yan模子100%反对于私有化部署运用,不经裁剪以及缩短即可在主流破费级CPU等端侧配置装备部署上无损运行,抵达其余模子在GPU上的运行下场。这一点在这次宣告会上也患上到了印证,钻研职员现场揭示了Yan模子在总体电脑真个运行推理,下阶段有望在手机端等愈加便携的配置装备部署或者终端中妨碍无损部署。

 

刘凡平展现:“岩芯数智旨在打造全模态实时人机交互零星,周全买通感知、认知、抉择规画与行动,构建通用家养智能的智能循环,为通用机械人等具身智能倾向的钻研提供大模子根基底座的‘更多抉择’,愿望能在低破费、显存受限的情景下,经由提供基于Yan架构的业余花难题工具,实现端侧磨炼、训推一体,助力千行百业实现数智化转型及降级。” 

 

新模力,新生态

 

宣告会圆桌交流关键,刘凡平与中科院上海微钻研所钻研员兼博导、中国信通院上海工创中间总工程师李韩军、智子鑫源独创人曹杨、阅文尽头技术总监叶礼伟,环抱“立异与修正”的议题,就未来家养智能规模的生态建树妨碍了深入交流与品评辩说。

 

李韩军展现:“家养智能睁开至今,大模子的架构降级不断在不断进化,在技术与运用的双重驱动下,生态领土也在扩展。可能说,每一次技术上的突破,都市带来智能生态的睁开。从之后着眼通用性,到未来的特色化睁开,咱们期待行业生发更多新的花难题工具,激发新一轮技术革命,增长全部AI行业向愈加高效以及可不断的倾向睁开。”

 

Yan模子在实际运用中的展现还需要经由市场的魔难,正如岩芯数智董事长陈代千的总结陈词:“随着Yan模子的进一步落地以及运用,期待以Yan架构为根基的通用大模子,为种种机械人、嵌入式配置装备部署、物联网配置装备部署提供所需的智能化能耐,能为家养智能行业注入新的去世气愿望、新的思绪,新的可能,为企业以及用户缔造更多的价钱。也用咱们的实力,退出增长家养智能规模新一轮的技术刷新。”

雷峰网(公共号:雷峰网)

随机为您推荐
友情链接
版权声明:本站资源均来自互联网,如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

Copyright © 2016 Powered by 岩芯数智自研国内首个非Attention机制大模子,无损提速7倍,供认不讳网   sitemap

回顶部