面向机器学习的自然语言标注3.3 语言模型
3.3 语言模型 n元语法的好处是什么呢?多年来自然语言处理已经利用n元语法开发了预测序列行为的统计语言模型(language model)。序列行为涉及在包含多个X的序列中识别下一个X。例如,语音识别、机器翻译等。在给定前一个元素的前提下语言模型预测序列中的下一个元素。 让我们更仔细地看看它是如何工作的,以及如何使用前几章讨论的工具。假设有一个单词序列,w1,w2,?wn。预测序列中的任意“.....
面向机器学习的自然语言标注3.2 计算出现次数
3.2 计算出现次数 当我们将语言学文本放在一起形成语料库时,在检查语料库前,我们很可能不知道一个具体语言现象的概率分布。例如,如果没有统计每个题材的评论数量,我们不可能知道在IMDb语料库中出现动作类电影评论的概率。在现实中,没有一个语料库会如此平衡。通过对数据集(这里,数据集包含动作类、喜剧类等类型的电影评论)中相关对象出现次数的计数,构成对语料库的统计。类似地,在检查语料库的语言学内容时,....
面向机器学习的自然语言标注3.1 语料库分析中的基本概率知识
语料库分析 既然你已经成功地为自己定义的目标建立了一个语料库,那么接下来的一个重要工作就是探究这个语料库包含了哪些信息。本章的目的是为你介绍一些可用于分析语料库的语言学内容的工具。因此,我们将为你介绍各种可用于在语料库上完成各种统计分析的技术和工具。 为此,我们将从语言学的角度介绍一些统计和概率知识。我们称这个领域为语料库分析(corpus analytics)。具体包括以下内容: 如何计算单词....
面向机器学习的自然语言标注2.4 语料库的规模
2.4 语料库的规模 既然你已经知道想要寻找何种类型的数据以及如何表现它,那么你还需要决定实际需要收集与标注多少数据。如果你计划使用一个已有的语料库,那么语料库的总规模已经确定,但是你可能仍然需要决定对语料库的多少内容进行标注。 一般而言,无论标注目标是什么,收集与标注的数据越多,就离达成目标越近。然而,在多数情况下,在讨论语言标注任务时“越大越好”并不是切实可行的——时间、金钱、有限的资源以.....
面向机器学习的自然语言标注2.3 整合数据集
2.3 整合数据集 我们已经讨论整合数据集时需要考虑的一些问题:标注任务的范围、已有语料库是否含有对你有用的文档与标注信息、数据来源的多样化。 如果你计划将你的数据集公开,请确定你已经拥有对所标注信息向第三方重新发布的许可。有时可以仅发布独立的标注信息和从网站上收集数据的代码段,但最佳且最简单的方式是直接向内容提供者申请许可,尤其是当语料库和标注信息将用于商业而不是纯粹的教育目的时。 语料库构.....
面向机器学习的自然语言标注2.2 背景研究
2.2 背景研究 既然你已经考虑了哪些语言学层次适合标注任务,那么可以对相关研究工作进行了解。虽然建立标注语料库要花费许多工夫,完全由自己单独地完成一个好的标注任务也是可能的,但是首先了解业界的相关研究与发展现状将可以节省大量的时间和精力。很可能已有的一些研究与你正在进行的工作有关,从而使你不必一切从头做起。 例如,如果对时间标注感兴趣,现在ISO-TimeML已成为时间与事件标注方面(包括时.....
面向机器学习的自然语言标注2.1 定义目标
确定目标与选择数据 对标注目标进行清晰的定义对于任何一个以应用于机器学习为目的的工程来说都是至关重要的。在设计标签集、撰写指南、与标注人员一起工作以及训练算法时,很容易因为细节而迷失方向以至于忘记最终想要实现的目标是什么。有一个清晰的目标用于引导方向有助于标注工作,本章将讨论为目标创建一个好的定义需要做些什么,以及目标会以怎样的方式影响数据集。具体地,我们将考察: 好的标注目标是什么 ...
面向机器学习的自然语言标注1.4 标注开发循环
1.4 标注开发循环 对具体语言学现象进行编码的特征必须足够丰富,以便捕获训练算法中的预期行为。这些语言学描述通常来自对语言现象的理论建模。这些描述反过来形成了具体语言标注的基础,其自身可以作为特征用于训练和测试文本识别或标注算法的开发循环中。最后,基于对系统性能的分析和评价,语言现象的模型可能需要修改,进而可以重新训练和测试。 我们把这个开发循环称为MATTER方法,如图1-10所示(Pus.....
面向机器学习的自然语言标注1.3 语言数据和机器学习
1.3 语言数据和机器学习 我们已经介绍了语言标注方法及其语言数据标注格式的例子,接下来将描述基于这些标注语料库的计算框架,即机器学习。机器学习是人工智能的一个分支,研究如何根据经验和已有数据学习和改善性能的算法。它们学习(或生成)一个函数,将具体的输入数据映射为想要的输出。就我们的目标而言,机器学习算法处理的“数据”是自然语言,最常见的格式是文本,更典型的是标注突显具体特征的标签,这些特征与.....
面向机器学习的自然语言标注1.2 语料库语言学简史
1.2 语料库语言学简史 20世纪中叶,语言学实际上主要作为一种描述手段,用来研究语言中的结构属性和语言之间的类型差异。这使得构成语言表达的不同信息成分的描写模型相当复杂。在其他社会科学领域中,收集和分析数据一直来自统计学的计量技术。20世纪40年代,语言学家(如Bloomfield)开始思考语言可以用概率和行为主义术语来解释。经验和统计方法在20世纪50年代开始流行,同时香农(Shannon.....
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。
自然语言处理机器学习相关内容
自然语言处理您可能感兴趣
自然语言处理