文章 2024-05-24 来自:开发者社区

自然语言处理实战第二版(MEAP)(二)(4)

自然语言处理实战第二版(MEAP)(二)(3)https://developer.aliyun.com/article/1517851 4.2 挑战:检测毒性 为了看到主题建模的威力,我们将尝试解决一个真实问题:识别维基百科评论中的有毒性。这是当前内容和社交媒体平台面临的常见自然语言处理任务。在本章中,我们将处理一个维基百科讨论评论的数据集,^([7])我们将希望将其分类为两个类...

文章 2024-05-24 来自:开发者社区

自然语言处理实战第二版(MEAP)(二)(3)

自然语言处理实战第二版(MEAP)(二)(2)https://developer.aliyun.com/article/1517848 3.4.2 相关性排名 正如你之前看到的,你可以轻松比较两个向量并获得它们的相似性,但是你已经学到了,仅仅计算单词不如使用它们的 TF-IDF 值有效。因此,在每个文档向量中,你希望用单词的 TF-IDF 值(分数)替换每个单词的计数。现在你的向...

文章 2024-05-24 来自:开发者社区

自然语言处理实战第二版(MEAP)(二)(2)

自然语言处理实战第二版(MEAP)(二)(1)https://developer.aliyun.com/article/1517845 3.2 计数 n-grams 在上一章中你已经学到如何从语料库的标记中创建 n-gram。现在,是时候将它们用于创建更好的文档表示了。对你来说幸运的是,你可以使用你已经熟悉的相同工具,只需稍微调整参数即可。 首先,让我们在我们的语料库中添...

文章 2024-05-24 来自:开发者社区

自然语言处理实战第二版(MEAP)(一)(4)

自然语言处理实战第二版(MEAP)(一)(3)https://developer.aliyun.com/article/1517828 2.9.3 规范化你的词汇表 你已经看到了词汇表大小对 NLP 流程性能的重要性。另一种减少词汇表的技术是规范化您的词汇表,以便将意思类似的标记组合成单个规范化的形式。这样做会减少您需要在词汇表中保留的标记数量,同时还提高语料库中该标记或n-gr...

文章 2024-05-24 来自:开发者社区

自然语言处理实战第二版(MEAP)(一)(3)

自然语言处理实战第二版(MEAP)(一)(2)https://developer.aliyun.com/article/1517825 2.7 单词片段分词器 对于单词来说,将其视为不可分割的原子意义和思想是很自然的。然而,你可能会发现一些单词并不在空格或标点符号上清晰划分。而且,许多复合词或专有名词内部有空格,如果想要它们保持在一起,需要更深入地研究单词的统计特征。考虑如何通过...

文章 2024-05-24 来自:开发者社区

自然语言处理实战第二版(MEAP)(一)(1)

1.7 超空间的简要概述 在第三章中,你将学习如何将单词合并到较少数量的向量维度中来处理维度灾难。你甚至可以通过使用所有这些维度来识别你希望你的自然语言理解流水线理解的微妙事物,将这种诅咒变成一种祝福。你可以将向量投影到彼此上,以确定每对之间的距离。这给你一个合理的估计,表明它们之间的含义相似性,而不仅仅是它们的统计词语使用。当你以这种方式计算向量距离时,它被称为余弦距离度量。你将在第三...

文章 2024-05-24 来自:开发者社区

自然语言处理实战第二版(MEAP)(一)(2)

自然语言处理实战第二版(MEAP)(一)(1)https://developer.aliyun.com/article/1517822 2.4 你的分词器工具箱 因此,你遇到的每个应用程序都需要考虑哪种类型的分词器适合你的应用程序。一旦你决定要尝试哪些类型的标记,你就需要配置一个 Python 包来实现这个目标。 你可以选择几种分词器实现:^([7]) ...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

自然语言处理