小米又放大招!MiMo-VL 多模态大模型开源,魔搭推理微调全面解读来了!
01.引言 今天,小米开源发布两款 7B 规模视觉-语言模型 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL。 MiMo-VL-7B的模型架构为: ① 保持细粒度视觉细节的原生分辨率ViT编码器 ② 用于高效跨模态对齐的MLP projector ③ 专为复杂推理任务优化的MiMo-7B语言模型 ...

Qwen3开源发布:Think Deeper, Act Faster!社区推理、部署、微调、MCP调用实战教程来啦!
00.前言 今天,通义千问Qwen团队正式开源推出 Qwen3,这是 Qwen 系列大型语言模型的最新成员。最新的Qwen3系列模型具备双模推理能力(深入思考/快速响应)、支持119种语言及方言,并强化了Agent功能与代码执行能力,全面满足复杂问题处理与全球化应用需求。 其中,旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中,与 DeepSeek-R...

通义千问2.5模型部署与微调
通义千问2.5(Qwen2.5)是阿里云研发的通义千问系列开源大模型。该系列提供Base和Instruct等多版本、多规模的开源模型,从而满足不同的计算需求。PAI已对该系列模型进行全面支持,本文以通义千问2.5-7B-Instruct模型为例为您介绍如何在Model Gallery中部署、微调和评测该系列模型(本文适用于Qwen2.5和Qwen2系列模型)。
结合伸缩组与抢占式实例节省大模型微调成本
为降低模型微调训练成本,您可以使用伸缩组自动调度抢占式实例,同时配置抢占式实例中断回收时自动创建新实例、基于最新Checkpoint恢复训练,保障任务连续性。
通义千问1.5模型部署与微调
通义千问1.5(qwen1.5)是阿里云研发的通义千问系列开源大模型。该系列包括Base和Chat等多版本、多规模的开源模型,从而满足不同的计算需求。PAI已对该系列模型进行全面支持,本文以通义千问1.5-7B-Chat模型为例为您介绍如何在Model Gallery中部署和微调该系列模型。
llama factory 从数据集起步 跑通 qwen系列开源生成式大模型 微调
一、总体概述 dataset_info.json文件包含了llama factory所有可用的数据集,若使用自定义数据集,需在该文件中添加数据集描述,并通过修改dataset: 数据集名称配置来使用数据集。目前支持alpaca格式和sharegpt格式的数据集。 二、数据集相关参数说明(在dataset_info.json中对应数据集描述部...

基于DeepGPU加速器快速实现Qwen1.5-7B指令微调
本文基于LLaMA-Factory提供了一套Qwen1.5-7B模型在阿里云ECS上进行指令微调的训练方案,最终可以获得性能更贴近具体使用场景的语言模型。
面向NL2BI的大模型微调最佳实践
本文以Qwen系列大模型为例,介绍如何在人工智能平台PAI上构建从训练数据生成、模型微调训练到服务部署和调用的NL2BI全链路解决方案。
千亿大模型来了!通义千问110B模型开源,魔搭社区推理、微调最佳实践
近期开源社区陆续出现了千亿参数规模以上的大模型,这些模型都在各项评测中取得杰出的成绩。今天,通义千问团队开源1100亿参数的Qwen1.5系列首个千亿参数模型Qwen1.5-110B,该模型在基础能力评估中与Meta-Llama3-70B相媲美,在Chat评估中表现出色,包括MT-Bench和AlpacaEval 2.0。 Qwen1.5-110B与其他Qwen1.5模型相似,...

社区供稿 | 猎户星空百亿参数大模型 Orion-14B系列开源,一张3060就能跑(附魔搭社区推理微调最佳实践)
1月21日,傅盛在猎户星空大模型发布会上宣布,“为企业应用而生” 的开源百亿参数猎户星空大模型正式发布。猎户星空大模型(Orion-14B)是由猎户星空研发的预训练多语言大语言模型,以其140亿参数规模展现出了卓越的性能。模型性能评测Orion-14B模型在一个庞大且多样化的数据集上进行训练,数据集规模达到了2.5万亿token。这一规模不仅覆盖了常见语言,还涵盖了专业术语和特定领域知识,确保模....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。
通义大模型
阿里云自主研发的通义大模型,凭借万亿级超大规模数据训练和领先的算法框架,实现全模态高效精准的模型服务调用。https://www.aliyun.com/product/tongyi
+关注