文本相似度服务提供不同文本之间相似度的计算,并输出一个介于0到1之间的分数,分数越大则文本之间的相似度越高。文本相似度可以帮助用户快速实现推荐、检索、排序等应用。

文本相似度,顾名思义是指两个文本(文章)之间的相似度,在搜索引擎、推荐系统、论文鉴定、机器翻译、自动应答、命名实体识别、拼写纠错等领域有广泛的应用。

总的来说,文本相似度是自然语言处理(NLP)中必不可少的重要环节,几乎所有 NLP 的领域都会涉及到!

与之相对应的,还有一个概念——文本距离——指的是两个文本之间的距离。文本距离和文本相似度是负相关的——距离小,“离得近”,相似度高;距离大,“离得远”,相似度低。业务上不会对这两个概念进行严格区分,有时用文本距离,有时则会用文本相似度。

在自然语言处理过程中,经常会涉及到如何度量两个文本之间的相似性,我们都知道文本是一种高维的语义空间,如何对其进行抽象分解,从而能够站在数学角度去量化其相似性。而有了文本之间相似性的度量方式,我们便可以利用划分法的K-means、基于密度的DBSCAN或者是基于模型的概率方法进行文本之间的聚类分析;另一方面,我们也可以利用文本之间的相似性对大规模语料进行去重预处理,或者找寻某一实体名称的相关名称(模糊匹配)。

产品优势

深度学习技术

基于深度神经网络,囊括单词语义与文本语义,文本表达效果更好

语义级匹配

将文本字符串表示成低维连续语义空间上的向量,泛化能力强

算法效果稳定

阿里基于海量的内容搜索数据训练相似度模型,模型效果优于已公开主流算法

稳定可靠

服务可用性高达 99.9%,根据调用量动态调整,支持上亿量级的调用及数据监控

适用场景

搜索引擎
通过匹配检索文本和候选文本的相似度,支持搜索引擎的基础能力
信息推荐
计算信息浏览历史和其他详细信息的相似度,从而为用户推荐相关内容
智能问答
通过匹配问题和候选答案的文本相似度,支持智能问答系统的基础能力
搜索引擎
通过匹配检索文本和候选文本的相似度,支持搜索引擎的基础能力
信息推荐
计算信息浏览历史和其他详细信息的相似度,从而为用户推荐相关内容
智能问答
通过匹配问题和候选答案的文本相似度,支持智能问答系统的基础能力

更多产品与服务

词向量
将词表中的词进行向量化,实现文本信息可计算
了解更多
词性标注
为自然语言文本中的每个词汇赋予一个词性
了解更多
多语言分词
将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列
了解更多
命名实体
将文本中特定类型的事物名称或符号识别出来
了解更多