相似性度量算法总结 一、向量内积 (1)介绍:内积也叫点积,内乘,数量积,计算结果是一个数(标量) (2)公式:对于向量
与向量
,点积公式为:
(3)几何意义:
表示向量a在向量b方向上的投影 设二维空间有两个向量
、
,
分别表示
、
的模长,它们的夹角为
,则内积定义为:
二、余弦相似度 2.1 简介 (1)介绍:余弦相似度又叫夹角余弦 (2)公式:二维空间中向量
与向量
的夹角余弦公式:
两个n维样本点
和
的夹角余弦为:
,即
(3)几何意义:夹角余弦可用来衡量两个向量方向的差异;机器学习中,借用这一概念来衡量样本向量之间的差异。夹角余弦取值范围为[-1,1]。余弦越大表示两个向量的夹角越小,余弦越小表示两向量的夹角越大。当两个向量的方向重合时余弦取最大值1,当两个向量的方向完全相反余弦取最小值-1 2.2 内积与余弦相似度 (1)公式: 存在两个向量
,
内积:
余弦相似度:
(2)二者关系:余弦相似度实际是内积的归一化余弦相似性只考虑向量夹角大小(
),而内积不仅考虑向量夹角大小,也考虑了向量的长度差(
) (3)举例说明 比如
如果向量的长度对相似性有真实影响,
三个向量,相似度相同(都=1),但 BC 内积 大于 AB 内积,故 BC 更相似 三、欧氏距离 (1)介绍:欧氏距离是最容易直观理解的距离度量方法,我们小学、初中和高中接触到的两个点在空间中的距离一般都是指欧氏距离 (2)计算公式二维平面上点
与
间的欧氏距离:
三维空间点
与
间的欧氏距离:
n维空间点
与
间的欧氏距离(两个n维向量):
四、曼哈顿距离(Manhattan Distance) 3.1 简介 (1)介绍:顾名思义,在曼哈顿街区要从一个十字路口开车到另一个十字路口,驾驶距离显然不是两点间的直线距离。这个实际驾驶距离就是“曼哈顿距离”。曼哈顿距离也称为“城市街区距离”(City Block distance)。 (2)公式:二维平面两点
与
间的曼哈顿距离:
n维空间点
与
的曼哈顿距离:
3.2 欧式距离和曼哈顿距离的区别 曼哈顿距离是与欧式距离不同的一种丈量方法,两点之间的距离不再是直线距离,而是投影到坐标轴的长度之和绿色的线为欧式距离的丈量长度红色的线即为曼哈顿距离长度蓝色和黄色的线是这两点间曼哈顿距离的等价长度
五、切比雪夫距离 (Chebyshev Distance) 4.1 简介 (1)介绍:国际象棋中,国王可以直行、横行、斜行,所以国王走一步可以移动到相邻8个方格中的任意一个。国王从格子(x1,y1)走到格子(x2,y2)最少需要多少步?这个距离就叫切比雪夫距离。切比雪夫距离通常被称为棋盘距离。 王可以前后左右走,还可以斜前斜后走,一共8个方向可以认为距离均等。
二维平面两点
与b(x2,y2)间的切比雪夫距离:
n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)的切比雪夫距离:
4.2 举例 二维平面上的切比雪夫距离就是国王移动问题,比如这里 “国王” 从移动到。最短的距离肯定要斜着走,因为,斜着走一格就相当于正常 “横”、“竖” 走两格。一步抵两步,当然选斜着的了。斜的最大距离是
,剩下的只能横着走切比雪夫距离为:
六、皮尔逊相关系数 6.1 简介 (1)介绍:皮尔逊相关系数(Pearson Correlation)是衡量向量相似度的一种方式。 (2)输出范围:-1到+1,其中0代表无相关性,负值代表负相关,正值代表正相关。 (3)计算公式:
当相关系数为0时,X和Y两向量不相关当X的值增大(减小),Y值减小(增大),X和Y两向量负相关,相关系数在-1.0到0.0之间。当X的值增大(减小),Y值增大(减小),X和Y两向量正相关,相关系数在0.0到+1.0之间。 (4)相关程度0.8-1.0 极度相关0.6-0.8 强相关0.4-0.6 中等程度相关0.2-0.4 弱相关0.0-0.2 极弱相关或无相关 6.2 皮尔逊相关系数与欧几里得距离 皮尔逊相关系数在欧式距离上做出了优化,对向量的值做了中心化处理,即对两个向量中的所有维度都减去素的平均值,中心化后所有维度的平均值基本为0;然后对中心化结果求余弦距离,但余弦距离的计算要求每个向量中所有的值都必须非空,若两个向量v1=(3,2,4)、v2=(-1,2,null),则无法进行余弦距离计算的。皮尔逊相关系数把向量中所有null维度赋值为0,再对结果进行余弦计算。 皮尔逊相关系数既是欧式距离的升级,即它提供了对于变量取值范围不同的处理步骤,不同变量量纲上的差别在计算过程中去掉了;又是余弦相似度在维度值缺失情况下的一种改进。 七、马氏距离 7.1 简介 (1)介绍:马氏距离实际上是欧氏距离在多变量下的“加强版”,用于测量点(向量)与分布之间的距离;当需要度量点(向量)与多变量分布之间的距离时,如果直接采用欧式距离,衡量的是两点之间的直接距离(点与分布之间的欧式距离,指的是向量x与变量空间中心的距离),而没有考虑数据的分布特性多变量分布:分布中随机变量的个数超过两个物理意义:马氏距离就是在规范化的主成分空间中的欧氏距离。规范化的主成分空间:利用主成分分析对一些数据进行主成分分解。再对所有主成分分解轴做归一化,形成新的坐标轴。由这些坐标轴张成的空间就是规范化的主成分空间 7.2 公式 有M个样本向量X1~Xm,协方差矩阵记为S,均值记为向量μ,则其中样本向量X到μ的马氏距离表示为:
向量Xi与Xj之间的马氏距离定义为:
若协方差矩阵是单位矩阵(各个样本向量之间独立同分布),则Xi与Xj之间的马氏距离等于他们的欧氏距离:
若协方差矩阵是对角矩阵,则就是标准化欧氏距离。 7.3 马氏距离特点 量纲无关,排除变量之间的相关性的干扰;马氏距离的计算是建立在总体样本的基础上的,如果拿同样的两个样本,放入两个不同的总体中,最后计算得出的两个样本间的马氏距离通常是不相同的,除非这两个总体的协方差矩阵碰巧相同;计算马氏距离过程中,要求总体样本数大于样本的维数,否则得到的总体样本协方差矩阵逆矩阵不存在,这种情况下,用欧式距离计算即可。 7.4 马氏距离与欧式距离区别 马氏距离与欧几里得距离相比,有以下不同步骤:首先将列转换为不相关的变量缩放列以使其方差等于1最后,计算出加强版欧几里得距离 八、相关参考 除却巫山不是云:概念区分:点积(dot product)、内积(inner product)和数量积(scalar product)、叉积(cross product) 核函数 <– 内积 <– 余弦相似 9个数据科学中常见距离度量总结以及优缺点概述 相似性度量方法汇总 – 别把梦弄脏 – 博客园 带你一次搞懂点积(内积)、叉积(外积)_内积和点积_机器学习Zero的博客-CSDN博客 相似性度量方法汇总 – 别把梦弄脏 – 博客园 欧式距离、曼哈顿距离、切比雪夫距离三种距离的可视化展示 距离度量 — 切比雪夫距离(Chebyshev Distance) 皮尔逊相关系数(Pearson Correlation) 马氏距离详解(数学原理、适用场景、应用示例代码)_虾米小馄饨的博客-CSDN博客 各种距离 欧式距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准欧氏距离、马氏距离、余弦距离、汉明距离、杰拉德距离、相关距离、信息熵
2024最新激活全家桶教程,稳定运行到2099年,请移步至置顶文章:https://sigusoft.com/99576.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。 文章由激活谷谷主-小谷整理,转载请注明出处:https://sigusoft.com/89479.html