
NLP中的预处理:使用Python进行文本归一化(二)
缩写替换 使用维基百科中的缩略词列表,我们遍历句子并用它们的实际单词替换这些缩略词(这需要在标记化之前发生,因为一个标记被分成两部分)。这有助于以后句子结构的改进。该列表可在此处下载。def normalize_contractions(sentence_list...

NLP中的预处理:使用Python进行文本归一化(一)
了解我们的目标——为什么我们需要文本归一化 让我们从归一化技术的明确定义开始。自然语言作为一种人力资源,倾向于遵循其创造者随机性的内在本质。这意味着,当我们“产生”自然语言时,我们会在其上加上随机状态。计算机不太擅长处理随机性(尽管使用机器学习算法已将随机性的影响...

预测分词---Python自然语言处理(8)
前言在机器学习中,我们有了训练集的话,就开始预测。预测是指利用模型对句子进行推断的过程。在中文分词任务中也就是利用模型推断分词序列,同时也叫解码。在HanLP库中,二元语法的解码由ViterbiSegment分词器提供。本篇将详细介绍ViterbiSegment的使用方式加载模型在前篇博文中,我们已...

语料库标注与训练模型---Python自然语言处理(7)
前言通过前面博文的学习,我们知道在处理自然语言之时,肯定会用到语料库。目前,常用的语料库有PKU(人民日报语料库),MSR(微软亚洲研究院语料库)。而因为PKU是1998年时公开的,随着时代的发展,其分词早已经不大符合大众习惯。加之其手动编写有很多失误。所以...

拼音转换---Python自然语言处理(6)
什么是拼音转换在我们学习语言之前,我们一般会学习拼音来认识汉字,并学会如何读汉字。所以,拼音在对于我们语言的重要性不言而喻。而拼音转换指的是将汉字转为拼音的过程。但是,我们中文博大精深,一般来说某个字并不仅仅只有一个读音,比如“翟”,它作为姓氏可以读作zhái,作为其他可读作di。这是...

简繁体转换---Python自然语言处理(5)
简体繁体转换如今,世界上存在两种中文,一种是中文简体,一种是中文繁体。如果要完全掌握中文语言的自然语言处理,那么简繁都不可避免。所以,掌握了简体与繁体的转换,往往能够事半功倍。而HanLP也提供了简繁转换的类:CharTable,用它来执行字符正规化。比如简体转换繁体,全...

停用词过滤---Python自然语言处理(4)
什么是停用词在汉语中,有一类没有多少意义的词语,比如组词“的”,连词“以及”、副词“甚至”,语气词“吧”,被称为停用词。一个句子去掉这些停用词,并不影响理解。所以,进行自然语言处理时,我们一般将停用词过滤掉。而HanLP库提供了一个小巧的停用词字典,它位于Lib\site...

字典树---Python自然语言处理(3)
什么是字典树在自然语言处理中,字符串集合常用字典树存储,这是一种字符串上的树形数据结构。字典树中每条边都对应一个字,从根节点往下的路径构成一个个字符串。字典树并不直接在节点上存储字符串,而是将词语视作根节点到某节点之间的一条路径,并在终点节点上做个标记(表明到该节点就结束了)。要查询一个单词...

切分算法---Python自然语言处理(2)
前言我们需要分析某句话,就必须检测该条语句中的词语。一般来说,一句话肯定包含多个词语,它们互相重叠,具体输出哪一个由自然语言的切分算法决定。常用的切分算法有完全切分、正向最长匹配、逆向最长匹配以及双向最长匹配。本篇博文将一一介绍这些常用的切分算法。完全切分完全切分是指,找出一段文本中的所有单词。不考...

python机器学习入门之自然语言处理(NLP)工具Jieba的使用及解析
自然语言处理(NLP) 是指用算法对人类口头表达或书面提供的自然语言信息进行处理的技术,自然语言处理属于人工智能和语言学的交叉学科中文分词工具主要是Jieba。不仅能提供分词,还提供关键词提取和词性标注等功能。以下是Jieba分词的三种模式1:精确模式 试图将句子最精确的切开 适合文本分析2:全模式...
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。