9月8日,中国科学院自动化研究所发布消息,类脑脉冲大模型“瞬悉1.0”亮相。这是我国首次提出大规模类脑线性基础模型架构,并首次在国产图形处理器(GPU)算力集群上构建类脑脉冲大模型的训练和推理框架。
当前,基于Transformer架构(一种主流大模型基础架构)的大模型,基本计算单元为简单的点神经元模型,通过增加网络规模、算力资源和数据量,提升智能水平。这种利用外生复杂性实现通用智能的模式,会导致模型存在资源消耗瓶颈,处理超长序列的能力受限。
中国科学院自动化所通用类脑大模型北京市重点实验室科研团队,提出了基于内生复杂性的全新大模型构架方式,打造了“瞬悉1.0”,具有“小数据、高性能”的特点。该模型仅需约主流模型2%的数据量,就能在多项语言理解和推理任务中达到与之相媲美的性能。它不仅展现了一条不断提升模型复杂度和性能的新型可行路径,还有望为更低功耗的下一代神经形态计算理论和芯片设计提供思路。
“瞬悉1.0”还依托国产GPU算力集群,构建起国产自主可控类脑大模型生态。目前,该模型已在国产GPU平台上完成了全流程训练与推理,展示了构建国产自主可控新型大模型架构生态的可行性。它的超长序列处理能力,在法律及医学文档分析、复杂多智能体模拟、高能粒子物理实验等场景中,有显著的潜在效率优势。
目前,研究团队已经完成了该模型部分开源,开放测试网址,并同步公开了经过工业界大规模验证的“瞬悉1.0”中英文技术报告。
来源:北京日报客户端
记者:刘苏雅返回搜狐,查看更多