文章 2024-09-06 来自:开发者社区

小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!

旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。并且,量化后仅 2GB 内存,端侧友好。 小编敲黑板,本次发布重点: 无限长文本,榜单性能强,超长文本也不崩; 性能比肩 GPT-4o 的端侧强大 Function Calling; 超强 RAG 三件套,中文...

小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
文章 2024-07-09 来自:开发者社区

8B尺寸达到GPT-4级性能!北大等提出医疗专家模型训练方法

近年来,大语言模型(LLMs)在各个领域的应用越来越广泛,但随着模型的不断发展和应用场景的不断变化,对模型的持续预训练(continual pre-training)的需求也日益增加。持续预训练是指对已经预训练好的LLMs进行进一步的训练,以适应新领域或新任务的需求。然而,...

阿里云文档 2023-12-22

使用Pai-Megatron-Patch优化PyTorch版Transformer模型训练

本文介绍如何使用Pai-Megatron-Patch优化PyTorch版Transformer模型训练。

文章 2023-05-15 来自:开发者社区

性能最高提升 6.9 倍,字节跳动开源大模型训练框架 veGiantModel

字节跳动 AML 团队内部开发了火山引擎大模型训练框架 veGiantModel,比 Megatron 和 DeepSpeed 更快。背景近些年,NLP 应用方面有所突破,Bert、GPT、GPT-3 等超大模型横扫各种 NLP 测试后,人们发现参数量越大的模型,在算法方面表现越好,于是纷纷开始迅速向大模型方向发...

性能最高提升 6.9 倍,字节跳动开源大模型训练框架 veGiantModel
问答 2023-02-06 来自:开发者社区

ModelScope显卡驱动过低会影响性能吗?测试在a100的模型推理速度,还不如pc机的显卡快。

ModelScope显卡驱动过低会影响性能吗?测试在a100的模型推理速度,还不如pc机的显卡快。现在怀疑驱动版本低

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云机器学习平台PAI

阿里云机器学习PAI(Platform of Artificial Intelligence)面向企业及开发者,提供轻量化、高性价比的云原生机器学习平台,涵盖PAI-iTAG智能标注平台、PAI-Designer(原Studio)可视化建模平台、PAI-DSW云原生交互式建模平台、PAI-DLC云原生AI基础平台、PAI-EAS云原生弹性推理服务平台,支持千亿特征、万亿样本规模加速训练,百余落地场景,全面提升工程效率。

+关注