阿里云云原生大数据计算服务 MaxCompute 辅助无限光年在大模型数据预处理阶段处理更大规模、更多类型的文本数据,同时基于弹性 CPU 计算资源及分布式 Python 计算服务 MaxFrame,更简单、高效地完成数据预处理工作。
无限光年致力于研发独特的可信大模型及工具链技术,打造深入行业需求的 AI 原生产品与 AI Infra 平台。目前,无限光年的可信大模型产品和平台已经在海内外多家头部机构落地应用。公司团队既有来自阿里巴巴、蚂蚁集团、字节跳动、微软等的国际顶尖的人工智能科学家、工程师和产品设计师,也有来自摩根大通、邮储银行等金融机构的资深行业专家。同时,公司获得了来自阿里巴巴、启明、沙特阿美 Venture 等顶尖投资机构的支持。
无限光年的技术与商业路线既具前瞻性和独特性,同时能直击大模型商业化落地的核心痛点。在技术上,在 OpenAI 推出 o1 之前,无限光年在 2023 年就开始打造精准推理的可信大模型技术,不“卷”万亿参数大模型,而是研发独特的神经符号大模型进行深度推理。在 2024 年 7 月的世界人工智能大会上,无限光年发布了百亿参数级的可信光语系列大模型。在公开的权威逻辑推理数据集(ProofWriter、FOLIO、ProntoQA 和 MedExam Grading)上,以及全球投资业含金量高的特许金融分析师(CFA)一级和二级考试中,光语可信大模型准确率均超过万亿参数的 GPT4-Turbo 和 Llama3。同时,无限光年发布了可信大模型白皮书介绍相关技术。今年九月 OpenAI 的 o1-preview 的推出也验证了研发 AI 深度推理能力的重要性和前瞻性。
在商业落地上,无限光年围绕客户需求积极打造模应一体、精准可控的 AI 产品(包括金融专业写作、知识助手、智能风控产品)和大模型工具链平台。对于金融等行业应用,大模型的幻觉是严重问题。无限光年的大模型产品基于自研的可信推理技术,能有效减少幻觉,保证结果的可控和可解释性。同时,针对自主可控的客户需求,无限光年的大模型工具链平台在保证数据安全和隐私的基础上赋能客户 GPU 集群调度、大模型的训练、微调和部署、以及智能体构建。
在大模型开发场景中,数据预处理是提高数据质量和模型性能的关键,通过清洗、转换和整合数据,可以更好地确保后续数据分析和模型构建的准确性和可靠性,而文本去重、文本分类是大模型数据预处理中不可或缺的重要环节。
大规模数据集文本去重
大模型文本去重是指识别并合并重复或高相似度的文本,这一过程对于提升存储效率、降低存储成本以及优化用户体验具有重要意义。
同时,在大型语言模型(LLMs)的训练中,文本数据集的去重起着至关重要的作用。它不仅可以提升训练的效率,同时也有效减轻隐私问题。LLMs 的发展依托于大规模且多样化的数据集,然而这些数据集往往包含大量从互联网爬取的重复序列,这无疑加剧了数据冗余和隐私风险。文本去重不仅能加快 LLMs 的训练速度,同时也能降低数据记忆和隐私攻击的风险。
而面对海量的文本数据集,需要更大的弹性计算资源、更高效的去重算子支撑。
大规模数据集文本分类
文本分类同样是大模型数据预处理中的重要步骤,通过对各类文本数据集进行分类、质量打分,从而过滤大量低质量数据,高质量的数据对后续的模型训练及大模型微调有着至关重要的作用。
面向生活、数据、物理等不同领域的海量数据集,如何快速拉起并构建分布式计算环境并高效使用如 FastText 等文本分类模型,完成大规模数据集的文本分类工作,成为后续模型训练的关键。
面对海量文本数据集分布式计算处理的需求,无限光年选用了阿里云云原生大数据计算服务 MaxCompute。MaxCompute 提供了全托管 Severless 服务,面向大规模数据处理需求可快速提供海量、弹性 CPU 计算资源。
同时 MaxCompute 提供了分布式 Python 计算服务 MaxFrame,内置分布式 MinHash 文本去重算子,可以利用 MaxCompute 海量 CPU 计算资源,分布式、简单、高效地完成大规模数据集文本去重工作,其次 MaxFrame 支持分布式调用 FastText 文本分类等模型,从而分布式完成大规模文本数据集分类。在实际生产场景几千 CU 的 CPU 计算资源情况下,在一小时内即完成了几十亿条数据的分类、打分工作,大大提升了文本数据预处理效率。
阿里云云原生大数据计算服务 MaxCompute 辅助无限光年在大模型数据预处理阶段处理更大规模、更多类型的文本数据,同时基于弹性 CPU 计算资源及分布式计算框架,更简单、高效地完成数据预处理工作,从而推动了大模型业务的高速发展。