下面的 3D 散点图直观地展示了单词向量嵌入的概念。空间中的每个点代表一个单词,其位置由其向量嵌入决定。聚集的蓝点代表与动物相关的单词(“猫”、“狗”、“宠物”、“动物”),而红点代表与车辆相关的单词(“汽车”、“车辆”)。点的接近度表示语义相似性:具有相关含义的单词在此向量空间中位置更近。
3D 散点图可视化单词的向量嵌入。三维空间中显示了 Zalo 数据 六个点。代表动物相关单词(“猫”、“狗”、“宠物”、“动物”)的四个蓝点靠得很近。代表车辆相关单词(“汽车”、“车辆”)的两个红点远离动物群,但彼此靠近。每个点都标有相应的单词。这些轴被命名为 X、Y 和 Z。图表的标题是“矢量嵌入:3D 空间中的单词作为点”。
图 1:三维空间中的两组单词。邻近性表示语义相似性。
例如,“猫”和“狗”的关系很接近,体现了它们征。同样,“Car”和“Vehicle”紧密相连,显示出它们相关的含义。然而,动物组与车辆组相距甚远,这表明这些概念组在语义上是不同的。
这种空间表示使我们能够直观地捕获向量嵌入如何捕获和表示单词之间的关系。它将语言意义转化为可以数学测量和分析的几何关系。
向量嵌入如何捕捉含义
向量嵌入在自然语言处理(NLP)中尤其常见,它专注于表示单个单词。这些数字表示不是随机分配的,而是从大量文本数据中学习的。让我们看看它是如何工作的。
使用 Word2Vec 进行自然语言处理
将向量分配给单词的 NLP 技术之一是 Word2Vec。它是一种机器学习模型,可以学习根据大型文本语料库中的上下文关联单词。您可以将其视为一种语言模型,尝试根据单词周围的单词来预测单词。