部署DeepSeek-V3、DeepSeek-R1模型
DeepSeek-V3是由深度求索公司推出的一款拥有6710亿参数的专家混合(MoE)大语言模型,DeepSeek-R1是基于DeepSeek-V3-Base训练的高性能推理模型。Model Gallery提供了标准部署和多种加速部署方式,帮助您一键部署DeepSeek-V3和DeepSeek-R1...
微调DeepSeek-R1
DeepSeek-R1是由深度求索公司推出的首款推理模型,该模型在数学、代码和推理任务上的表现优异。深度求索不仅开源了DeepSeek-R1模型,还发布了从DeepSeek-R1基于Llama和Qwen蒸馏而来的六个密集模型,在各项基准测试中均表现出色。本文以蒸馏模型DeepSeek-R1-Distill-Qwen-7B为例,为您介绍如何微调该系列模型。
DSW跨域拉取海外模型或容器镜像
当您使用海外容器镜像(如:docker.io镜像)创建DSW实例,或者在DSW实例中拉取海外模型时(如:huggingface.co模型),可能由于网络跨域的原因无法正常访问,为解决此问题,您可以创建全球加速GA(Global Accelerator)实例,使用其提供的覆盖全球的网络加速服务,使DSW具备跨域获取模型和镜像的网络访问能力。
微调、部署并实现Llama-3.1模型的高效推理
阿里云PAI灵骏智算服务是面向大规模深度学习场景的智算产品,提供一站式的异构计算资源和AI工程化平台。本方案将为您介绍如何使用阿里云PAI灵骏智算服务,以及基于Meta-Llama-3.1-8B的开源模型和Megatron的训练流程,进行模型微调、离线推理验证,并实现在线服务部署。
人工智能大模型之开源大语言模型汇总(国内外开源项目模型汇总)
人工智能大模型之开源大语言模型汇总(国内外开源项目模型汇总) Large Language Model (LLM) 即大规模语言模型,是一种基于深度学习的自然语言处理模型,它能够学习到自然语言的语法和语义,从而可以生成人类可读的文本。 所谓"语言模型",就是只用来处理语言文字(或者符号体系)的 AI 模型,发现其中的规律,可以根据提示 (prompt),自动生成符合这些规律的内容。 LLM...

赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat(1)
作者:冷大炜,360 人工智能研究院刚刚过去的 22 年被媒体誉为 “AIGC 元年”,这一年中 AI 绘画和 chatGPT 相继引爆了全球科技界,成为人工智能领域的两大里程碑事件,特别是 chatGPT 的推出,又重新点燃了人们对通用人工智能 AGI 的新一轮期待,chatGPT 所表现出来的前所未有的逻辑能力和推理能力,让众多 AI 领域的专家和研究人员不禁为之赞叹。与此同时,更多的企业和....

赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat(2)
SEEChat v1.0 的训练分为两个阶段:第一阶段是图文对齐训练,使用我们之前开源的高质量中文图文对数据集 Zero [7],总共 2300 万样本进行训练;第二阶段是人机对齐训练,使用 miniGPT4+LLAVA 开源的指令微调数据经英 - 中翻译后,对第一阶段训练好的模型进行指令微调。下图 7~9 是关于 SEEChat v1.0 在图文对话、代码生成和目标分类能力的简单展示。可以看到....

艾伦人工智能研究院开源AllenNLP,基于PyTorch轻松构建NLP模型
艾伦人工智能研究院(AI2)开源AllenNLP,它是一个基于PyTorch的NLP研究库,利用深度学习来进行自然语言理解,通过处理低层次的细节、提供高质量的参考实现,能轻松快速地帮助研究员构建新的语言理解模型。 AllenNLP能让设计和评估新的深度学习模型变得简单,几乎适用于任何NLP问题,通过利用一些基础组件,你可以轻松地在云端或是你自己的笔记本上跑模型。 关于AllenNLP的详细信息.....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。