Multimodal LLM训练-模型文件\训练数据加载逻辑源码分析
1. summary 本文以Omnigen项目(https://github.com/VectorSpaceLab/OmniGen)为例,对LLM训练过程中涉及与存储交互的部分在代码逻辑上做了梳理。整体分为模型文件加载侧以及训练数据加载侧两部分,训练数据除包含常规结构化的文本数据之外,又包含了图像相关数据的读写逻辑的梳理。整体包含了Python\Cpython\Rust\Cpp语言的sa...

使用DeepSeek-R1模型搭建RAG系统
DeepSeek-R1系列模型是一款专注于复杂推理任务的大语言模型,在复杂指令理解、推理结果准确性、性能稳定性等方面相比其他大语言模型,有一定优势。OpenSearch LLM智能问答版已集成DeepSeek-R1系列模型,进一步提升企业级RAG效果,本文向您介绍使用步骤。
使用DeepGPU-LLM镜像构建模型的推理环境
在GPU实例上配置DeepGPU-LLM容器镜像后,可以帮助您快速构建大语言模型(例如Llama模型、ChatGLM模型、百川Baichuan模型或通义千问Qwen模型)的推理环境,主要应用在智能对话系统、文本分析、编程辅助等自然语言处理业务场景,您无需深入了解底层的硬件优化细节,镜像拉取完成后,无需额外配置即可开箱即用。本文为您介绍如何在GPU实例上使用DeepGPU-LLM容器镜像构建大语言模...
使用TensorRT-LLM构建模型的推理环境
在GPU的实例上安装推理引擎TensorRT-LLM,可以帮助您快速且方便地构建大语言模型(例如Llama模型、ChatGLM模型、百川Baichuan模型或通义千问Qwen模型)的推理环境,主要应用在智能对话系统、文本分析等自然语言处理业务场景。本文为您介绍如何在GPU实例上安装和使用TensorRT-LLM来快速构建大语言模型的高性能推理优化功能。
OpenSearch-LLM智能问答版支持的向量模型
OpenSearch-LLM智能问答版内置五种向量模型,可以根据实际需求选择相应的向量模型来进行实例配置,本文介绍如何查看内置向量模型列表。
使用‘消除’技术绕过LLM的安全机制,不用训练就可以创建自己的nsfw模型
开源的大模型在理解和遵循指令方面都表现十分出色。但是这些模型都有审查的机制,在获得被认为是有害的输入的时候会拒绝执行指令,例如会返回“As an AI assistant, I cannot help you.”。这个安全功能对于防止误用至关重要,但它限制了模型的灵活性和响应能力。 在本文中,我们将探索一种称为“abliteration”的技术,它可以在不进行再训练的情况下取消LLM审查。这种.....

LLM 大模型学习必知必会系列(四):LLM训练理论篇以及Transformer结构模型详解
LLM 大模型学习必知必会系列(四):LLM训练理论篇以及Transformer结构模型详解 1.模型/训练/推理知识介绍 深度学习领域所谓的“模型”,是一个复杂的数学公式构成的计算步骤。为了便于理解,我们以一元一次方程为例子解释: y = ax + b 该方程意味着给出常数a、b后,可以通过给出的x求出具体的y。比如: #a=1 b=1 x=1 y = 1 * 1 + 1 -...

ModelScope中各位选LLM的时候,是不是国内中文训练的llama模型最方便呢?
ModelScope中各位选LLM的时候,是不是国内中文训练的llama模型最方便呢?比如Yi这种,模型格式兼容llama,优化和使用都比较简单。
swift webui中,LLM训练选择模型后,生成的模型id、system字段显示错误,如何解决
swift webui中,LLM训练选择模型后,生成的模型id、system字段显示错误,如何解决
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。