小米又放大招!MiMo-VL 多模态大模型开源,魔搭推理微调全面解读来了!
01.引言 今天,小米开源发布两款 7B 规模视觉-语言模型 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL。 MiMo-VL-7B的模型架构为: ① 保持细粒度视觉细节的原生分辨率ViT编码器 ② 用于高效跨模态对齐的MLP projector ③ 专为复杂推理任务优化的MiMo-7B语言模型 ...

Qwen3开源发布:Think Deeper, Act Faster!社区推理、部署、微调、MCP调用实战教程来啦!
00.前言 今天,通义千问Qwen团队正式开源推出 Qwen3,这是 Qwen 系列大型语言模型的最新成员。最新的Qwen3系列模型具备双模推理能力(深入思考/快速响应)、支持119种语言及方言,并强化了Agent功能与代码执行能力,全面满足复杂问题处理与全球化应用需求。 其中,旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中,与 DeepSeek-R...

通义千问2.5模型部署与微调
通义千问2.5(Qwen2.5)是阿里云研发的通义千问系列开源大模型。该系列提供Base和Instruct等多版本、多规模的开源模型,从而满足不同的计算需求。PAI已对该系列模型进行全面支持,本文以通义千问2.5-7B-Instruct模型为例为您介绍如何在Model Gallery中部署、微调和评测该系列模型(本文适用于Qwen2.5和Qwen2系列模型)。
结合伸缩组与抢占式实例节省大模型微调成本
为降低模型微调训练成本,您可以使用伸缩组自动调度抢占式实例,同时配置抢占式实例中断回收时自动创建新实例、基于最新Checkpoint恢复训练,保障任务连续性。
通义千问1.5模型部署与微调
通义千问1.5(qwen1.5)是阿里云研发的通义千问系列开源大模型。该系列包括Base和Chat等多版本、多规模的开源模型,从而满足不同的计算需求。PAI已对该系列模型进行全面支持,本文以通义千问1.5-7B-Chat模型为例为您介绍如何在Model Gallery中部署和微调该系列模型。
DeepSeek开源Janus-Pro多模态理解生成模型,魔搭社区推理、微调最佳实践
01引言 Janus-Pro是DeepSeek最新开源的多模态模型,是一种新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码解耦为独立的路径,同时仍然使用单一的、统一的变压器架构进行处理,该框架解决了先前方法的局限性。这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。Janus-Pro 超过了以前的统一模型,并且匹配或超过了特定任务模型的性能。J...

Qwen2.5 全链路模型体验、下载、推理、微调、部署实战!
引言 在 Qwen2 发布后的过去三个月里,许多开发者基于 Qwen2 语言模型构建了新的模型,并提供了宝贵的反馈。在这段时间里,通义千问团队专注于创建更智能、更博学的语言模型。今天,Qwen 家族的最新成员:Qwen2.5系列正式开源! 这可能是历史上最大的开源发布!最新发布包括了语言模型 Qwen2.5,以及专门针对编程的 Qwen2.5-Coder 和数学的 Qw...

基于DeepGPU加速器快速实现Qwen1.5-7B指令微调
本文基于LLaMA-Factory提供了一套Qwen1.5-7B模型在阿里云ECS上进行指令微调的训练方案,最终可以获得性能更贴近具体使用场景的语言模型。
Qwen2-VL 全链路模型体验、下载、推理、微调实战!
引言 经过了一年的不懈努力,今天通义千问团队对 Qwen-VL 模型进行重大更新——推出 Qwen2-VL。 Qwen2-VL 有什么新功能? · 增强的图像理解能力:Qwen2-VL显著提高了模型理解和解释视觉信息的能力,为关键性能指标设定了新的基准 · 高级视频理解能力:Qwen2-VL具有卓越的在线流媒体功能,能够以很高的精度实时分析动态...

面向NL2BI的大模型微调最佳实践
本文以Qwen系列大模型为例,介绍如何在人工智能平台PAI上构建从训练数据生成、模型微调训练到服务部署和调用的NL2BI全链路解决方案。
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。
通义大模型
阿里云自主研发的通义大模型,凭借万亿级超大规模数据训练和领先的算法框架,实现全模态高效精准的模型服务调用。https://www.aliyun.com/product/tongyi
+关注