词向量表示可以将词表中的词映射到高维向量空间中的数值表示,从而实现语义相似度计算、语义理解等具体应用。词向量(Word embedding),又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。 从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。

生成这种映射的方法包括神经网络,单词共生矩阵的降维,概率模型,可解释的知识库方法,和术语的显式表示 单词出现的背景。

当用作底层输入表示时,单词和短语嵌入已经被证明可以提高NLP任务的性能,例如语法分析和情感分析。

在语言学中,在分布语义学的研究领域中讨论了词嵌入。它旨在基于语言数据的大样本中的分布属性来量化和分类语言项之间的语义相似性。 Firth普及了“一个词以其所保持的特征为特征”的基本观点。

将词语表示为向量的技术起源于20世纪60年代随着用于信息检索的向量空间模型的发展。使用奇异值分解减少维数,然后导致在20世纪80年代后期引入潜在语义分析。2000年Bengio等人。在一系列论文中提供了“神经概率语言模型”,通过“学习单词的分布式表示”来减少语境中单词表示的高维度。 (Bengio等,2003)。单词嵌入有两种不同的风格,一种是将单词表示为共同出现的单词的向量,另一种是将单词表示为单词出现的语言上下文的向量;研究了这些不同的风格(Lavelli等,2004)。Roweis和Saul在“科学”杂志上发表了如何使用“局部线性嵌入”(LLE)来发现高维数据结构的表示。该区域在2010年后逐渐发展并真正起飞,部分原因是此后在向量质量和模型训练速度方面取得了重要进展。

产品优势

深度学习

基于深度学习构建词向量表示模型

海量数据

基于阿里大规模数据进行训练,样本丰富

丰富场景

支持通用领域、电商、评论、视频等的丰富场景

表示精准

词向量表示精度高,精准描述词之间关系

适用场景

词义相似度
将词表中的词转化为向量形式的数值表示后,可以通过对向量进行计算得到词与词间的相似度
检索近义词
通过计算词向量的相似度,可以检索词表中词的近义词
推荐系统
通过计算标签词向量,匹配相似标签辅助进行系统个性化推荐
词义相似度
将词表中的词转化为向量形式的数值表示后,可以通过对向量进行计算得到词与词间的相似度
检索近义词
通过计算词向量的相似度,可以检索词表中词的近义词
推荐系统
通过计算标签词向量,匹配相似标签辅助进行系统个性化推荐

更多产品与服务

词性标注
为自然语言文本中的每个词汇赋予一个词性
了解更多
中心词提取
计算句子中每个词与句子的相关性程度,进而识别并提取句子中的中心词
了解更多
多语言分词
将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列
了解更多
命名实体
将文本中特定类型的事物名称或符号识别出来
了解更多