余弦相似度计算文本相似度_向量相似度计算方法

余弦相似度计算文本相似度_向量相似度计算方法余弦相似度1.公式对于两个向量 可以用其夹角余弦表示其近似的程度(公式如下):两个向量夹角余弦值就是两个向量的余弦相似度。该公式直接来源于内积的定义。分子为两个向量内积,分母为两个向量模(长度)的积。通过公式,可以直观的认为其一定程度上消除了向量长度的影响

余弦相似度   1.公式   对于两个向量
 \vec{a},\vec{b} 可以用其夹角余弦表示其近似的程度(公式如下):   
 \cos{(\vec{a},\vec{b})} = \frac{\vec{a} \cdot \vec{b}}{|\vec{a}||\vec{b}|}   两个向量夹角余弦值就是两个向量的余弦相似度。   该公式直接来源于内积的定义。   分子为两个向量内积,分母为两个向量模(长度)的积。通过公式,可以直观的认为其一定程度上消除了向量长度的影响,余弦相似度体现的是方向的差异。(欧氏距离体现的是距离差异) 当夹角为0,两个向量同向,相当于相似度最高,余弦值为1 当夹角90°,两个向量垂直,余弦为0。 当夹角180°,两个向量反向,余弦为-1   2.用途   余弦相似度被大量用于对比:如人脸对比、声音对比,来快速判断两个图片或者两段声音的相似度,进而判断是不是来自同一个人。   当一个图像或者声音样本具有n维的特征,我们就可以把他认为是n维向量,两个样本使用余弦相似度比对时,就是对两个n维向量的夹角余弦值,其大小进行衡量。   特别的,当我们拥有一个训练完成的分类神经网络,理论上这个神经网络在最后一层全连接层的输入,就是神经网络提取的特征(因为最后一层全连接层借由这些数据完成了分类任务)。 余弦相似度而非算法,求出余弦相似度后,到底阈值如何界定(值大于多少认为是样本来自同一类),往往需要依次用不同的阈值数值对全部数据集进行测试,挑选效果最好的数值作为阈值 尽管余弦相似度用法类似欧氏距离(欧氏距离也可以用于比对:把n维特征认为是n维空间的一个点,当两个样本对应的点,距离足够近认为认为来自同一类),但余弦相似度并不符合距离定义。 余弦相似度范围[-1,1]包含负值,不便于使用,改进方法有:将余弦相似度用于正空间,对于各个维度均为正的向量,可以保证余弦相似度非负(该空间的夹角被限定在0-90,或者根据公式,内积恒为正)。用1减余弦相似度,此时结果范围为[0,2],且值越小表示越接近(类似欧氏距离)。   3.示例   例如鸢尾花数据集的四种特征,我们可以把每个样本认为是四维空间的一个点,每个样本的四个特征分别是这四个维度的坐标。   下图为散点图,四个特征中仅使用petal length,petal width两个特征作图(分别横纵坐标,二维的便于观察)
余弦相似度计算文本相似度_向量相似度计算方法
余弦相似度计算文本相似度_向量相似度计算方法   在此基础上,我们从原点起,向每个样本点引一个有向线段,这就把每个样本转换成一个四维空间的向量,余弦相似度就是两个向量间的夹角余弦值。本例中特征为长度,余弦相似度不会有负值。   为避免箭头太多混乱,挑选1个setosa样本(蓝箭头)与2个virginia样本(绿箭头),查看同类样本、不同类样本之间的夹角(夹角越小,余弦值越大)。
余弦相似度计算文本相似度_向量相似度计算方法
余弦相似度计算文本相似度_向量相似度计算方法   在本例中可以发现,同类的绿色向量间,夹角更小,相似度高;不同类的蓝绿向量之间,夹角大,相似度低。   实际上,通过观察散点图,可以发现鸢尾花数据集并不特别适合使用余弦相似度,理论上应当同类型花的各样本向量夹角小,不同类夹角大;但很多不同类的样本向量夹角也很小,不利于根据余弦相似度大小区分是否同类。   这是因为余弦相似度的是方向,一定程度上忽略了距离的影响,但花朵的长度参数petal length,petal width会极大的影响花的分类,不应进行忽略。   4.代码   余弦相似度计算代码(定义后可以直接调用,a,b为n维的array类数据特征)   鸢尾花数据集作图代码(需要事先安装scikit-learn库,通过安装)   挑选部分样本计算余弦相似度   5.算法   一个简单的对比算法,对余弦相似度用阈值判断:对任意两个样本,计算余弦相似度,如果超过该阈值认为是同一类,否则认为是不同类。   下面是通过遍历确定阈值的方法:   运行结果(横轴为阈值,纵轴为选取该阈值进行判断的准确率)
余弦相似度计算文本相似度_向量相似度计算方法
余弦相似度计算文本相似度_向量相似度计算方法

2024最新激活全家桶教程,稳定运行到2099年,请移步至置顶文章:https://sigusoft.com/99576.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。 文章由激活谷谷主-小谷整理,转载请注明出处:https://sigusoft.com/36260.html

(0)
上一篇 2024年 9月 9日
下一篇 2024年 9月 9日

相关推荐

关注微信