中文文本自动校对技术是计算机根据文本本身包含的信息,对其电子文本自动分析,发现、标示出错误并进行改正的过程。它涉及语言学、计算机科学、数理统计学等多门学科知识,是建立在自然语言理解技术基础之上的庞大工程。

准确识别输入文本中出现的拼写错别字及段落位置信息,并针对性给出正确的建议文本内容。 文本纠错支持短文本、长文本、语音识别结果等多种文本内容,在搜索引擎、人机对话、语音识别、内容审核等方面有广泛的应用,能显著提高这些场景下的语义准确性和用户体验。

文本纠错支持短文本、长文本、语音识别结果等多种文本内容,在搜索引擎、人机对话、语音识别、内容审核等方面有广泛的应用,能显著提高这些场景下的语义准确性和用户体验。

识别文本中有错误的片段,进行错误提示并给出正确的建议文本内容

中文纠错分为两步走,第一步是错误检测,第二步是错误纠正;错误检测部分先通过结巴中文分词器切词,由于句子中含有错别字,所以切词结果往往会有切分错误的情况,这样从字粒度和词粒度两方面检测错误, 整合这两种粒度的疑似错误结果,形成疑似错误位置候选集;

错误纠正部分,是遍历所有的疑似错误位置,并使用音似、形似词典替换错误位置的词,然后通过语言模型计算句子困惑度,对所有候选集结果比较并排序,得到最优纠正词。

产品优势

深度学习技术

基于深度神经网络,囊括单词语义与文本语义,文本表达效果更好

语义级匹配

将文本字符串表示成低维连续语义空间上的向量,泛化能力强

算法效果稳定

阿里基于海量的内容搜索数据训练相似度模型,模型效果优于已公开主流算法

稳定可靠

服务可用性高达 99.9%,根据调用量动态调整,支持上亿量级的调用及数据监控

适用场景

搜索内容纠错
对用户输入的检索文本进行纠错并提示,从而提升搜索内容的准确度
写作文本纠错
对内容编写平台增加文本纠错功能,降低用户创作的时间成本,提升编写内容质量
语音识别纠错
对语音识别生成的文本进行文本纠错,使识别出的文本内容更精准,提升用户使用语音识别功能的体验
搜索内容纠错
对用户输入的检索文本进行纠错并提示,从而提升搜索内容的准确度
写作文本纠错
对内容编写平台增加文本纠错功能,降低用户创作的时间成本,提升编写内容质量
语音识别纠错
对语音识别生成的文本进行文本纠错,使识别出的文本内容更精准,提升用户使用语音识别功能的体验

更多产品与服务

依存句法分析
自动分析文本中的依存句法结构信息,对自然语言的进行深度理解
了解更多
词性标注
为自然语言文本中的每个词汇赋予一个词性
了解更多
多语言分词
将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列
了解更多
命名实体
将文本中特定类型的事物名称或符号识别出来
了解更多