余弦相似度的取值范围_余弦距离和余弦相似度

2024年 9月 7日下午9:56 • 激活谷笔记

余弦相似度的取值范围_余弦距离和余弦相似度使用余弦相似度算法计算文本相似度在工作中一直使用余弦相似度算法计算两段文本的相似度和两个用户的相似度。一直弄不明白多维的余弦相似度公式是怎么推导来的。今天终于花费时间把公式推导出来，其实很简单，都是高中学过的知识，只是很多年没用了，都还给老师了。本文还通过一个例子演示如果

使用余弦相似度算法计算文本相似度　　在工作中一直使用余弦相似度算法计算两段文本的相似度和两个用户的相似度。一直弄不明白多维的余弦相似度公式是怎么推导来的。今天终于花费时间把公式推导出来，其实很简单，都是高中学过的知识，只是很多年没用了，都还给老师了。本文还通过一个例子演示如果使用余弦相似度计算两段文本的相似度。　　介绍一个书，吴军老师的数学之美，当时我花了一个通宵的时间看完这本书。书中使用余弦定理准确的进行新闻分类、拼音输入法的数学原理文章，让我脑洞大开，原来数学是如此的重要，能解决IT行业如此多的问题。　　余弦函数在三角形中的计算公式为：

　　在直角坐标系中，向量表示的三角形的余弦函数是怎么样的呢？下图中向量a用坐标(x1,y1)表示，向量b用坐标(x2,y2)表示。

　　向量a和向量b在直角坐标中的长度为

　　，向量a和向量b之间的距离我们用向量c表示，就是上图中的黄色直线，那么向量c在直角坐标系中的长度为

　　，将a，b，c带入三角函数的公式中得到如下的公式：

　　这是2维空间中余弦函数的公式，那么多维空间余弦函数的公式就是：

　　余弦相似度　　余弦相似度量：计算个体间的相似度。　　相似度越小，距离越大。相似度越大，距离越小。　　假设有3个物品，item1，item2和item3，用向量表示分别为：　　item1[1,1,0,0,1]，　　item2[0,0,1,2,1]，　　item3[0,0,1,2,0]，　　即五维空间中的3个点。用欧式距离公式计算item1、itme2之间的距离，以及item2和item3之间的距离，分别是：　　item1-item2=

　　item2-item3=

　　用余弦函数计算item1和item2夹角间的余弦值为：

　　用余弦函数计算item2和item3夹角间的余弦值为：

　　由此可得出item1和item2相似度小，两个之间的距离大(距离为7)，item2和itme3相似度大，两者之间的距离小(距离为1)。　　余弦相似度算法：一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小，余弦值接近1，夹角趋于0，表明两个向量越相似，余弦值接近于0，夹角趋于90度，表明两个向量越不相似。　　余弦相似度　　余弦相似度量：计算个体间的相似度。　　相似度越小，距离越大。相似度越大，距离越小。　　余弦相似度算法：一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小，余弦值接近1，夹角趋于0，表明两个向量越相似，余弦值接近于0，夹角趋于90度，表明两个向量越不相似。　　下面我们介绍使用余弦相似度计算两段文本的相似度。思路：1、分词；2、列出所有词；3、分词编码；4、词频向量化；5、套用余弦函数计量两个句子的相似度。　　句子A：这只皮靴号码大了。那只号码合适。　　句子B：这只皮靴号码不小，那只更合适。　　1、分词：　　使用结巴分词对上面两个句子分词后，分别得到两个列表：　　listA=[‘这‘, ‘只‘, ‘皮靴‘, ‘号码‘, ‘大‘, ‘了‘, ‘那‘, ‘只‘, ‘号码‘, ‘合适‘] 　　listB=[‘这‘, ‘只‘, ‘皮靴‘, ‘号码‘, ‘不小‘, ‘那‘, ‘只‘, ‘更合‘, ‘合适‘] 　　2、列出所有词。将listA和listB放在一个set中，得到：　　set={‘不小’, ‘了’, ‘合适’, ‘那’, ‘只’, ‘皮靴’, ‘更合’, ‘号码’, ‘这’, ‘大’} 　　将上述set转换为dict，key为set中的词，value为set中词出现的位置，即‘这’:1这样的形式。　　dict1={‘不小’: 0, ‘了’: 1, ‘合适’: 2, ‘那’: 3, ‘只’: 4, ‘皮靴’: 5, ‘更合’: 6, ‘号码’: 7, ‘这’: 8, ‘大’: 9}，可以看出“不小”这个词在set中排第1，下标为0。　　3、将listA和listB进行编码。将每个字转换为出现在set中的位置，转换后为：　　listAcode=[8, 4, 5, 7, 9, 1, 3, 4, 7, 2] 　　listBcode=[8, 4, 5, 7, 0, 3, 4, 6, 2] 　　我们来分析listAcode，结合dict1，可以看到8对应的字是“这”，4对应的字是“只”，9对应的字是“大”，就是句子A和句子B转换为用数字来表示。　　4、对listAcode和listBcode进行oneHot编码。就是计算每个分词出现的次数。oneHot编号后得到的结果如下：　　listAcodeOneHot = [0, 1, 1, 1, 2, 1, 0, 2, 1, 1] 　　listBcodeOneHot = [1, 0, 1, 1, 2, 1, 1, 1, 1, 0] 　　下图总结了句子从分词，列出所有词，对分词进行编码，计算词频的过程

　　5、得出两个句子的词频向量之后，就变成了计算两个向量之间夹角的余弦值，值越大相似度越高。　　listAcodeOneHot = [0, 1, 1, 1, 2, 1, 0, 2, 1, 1] 　　listBcodeOneHot = [1, 0, 1, 1, 2, 1, 1, 1, 1, 0]

　　根据余弦相似度，句子A和句子B相似度很高。　　代码如下：　　总结，例子很简单，只是比较短短两句话的相似度，算是机器学习入门的一个小案例。可以看到这是使用机器学习算法处理业务的通用步骤，先是取特征，然后特征向量化，最后代入数学公式中。　　欢迎本人的：summer_bigdata，了解更多关于大数据和机器学习的知识。

oracle命令窗口_oracle窗口列表在哪里

上一篇 2024年 9月 7日下午9:53

potplayer怎么载入字幕_potplayer怎么加载字幕

下一篇 2024年 9月 7日下午10:02

激活谷笔记

Navicat Premium 16.2.7激活(Navicat Premium 16 连接Oracle注意事项)

Navicat Premium 16.2.7激活(Navicat Premium 16 连接Oracle注意事项)

2024年 8月 10日
激活谷笔记

WebStorm2024.1.5激活码(JetBrains PhpStorm 2024.1中文激活成功教程版含汉化激活教程)

WebStorm2024.1.5激活码(JetBrains PhpStorm 2024.1中文激活成功教程版含汉化激活教程)

2024年 7月 8日
激活谷笔记

Idea激活2022.1(IDEA激活码2022.1最新激活注册码–激活成功教程教程「永久激活，亲测有效果」)

Idea激活2022.1(IDEA激活码2022.1最新激活注册码–激活成功教程教程「永久激活，亲测有效果」)

2024年 7月 31日
查看linux进程内存使用情况

查看linux进程内存使用情况请关注本头条号，每天坚持更新原创干货技术文章。如需学习视频，请在微信搜索公众号“智传网优”直接开始自助视频学习1. 前言大多数linux进程(即使没有明确运行)都在后台运行，以提供服务，并为用户调用所执行的应

激活谷笔记 2024年 5月 18日
linux未找到命令怎么办

linux未找到命令怎么办linux中命令找不到的原因在Linux系统中，当我们在终端中输入一个命令时，如果系统返回“command not found”或“命令找不到”的错误信息，说明该命令无法被系统识别和执行。这种情况可能有多种原因，下

激活谷笔记 2024年 7月 28日
激活谷笔记

trip怎么读_trip怎么读英语

trip怎么读_trip怎么读英语trip是什么意思_trip怎么读_中文翻译是什么？在英语学习过程中经常会遇到英语单词trip，那么你知道英语单词trip是什么意思吗？你知道英语单词trip怎么读吗？下面我们就一起来了解一下英语单词tri

2024年 5月 25日
激活谷笔记

异步线程池和同步线程池区别_同步逻辑电路和异步逻辑电路

异步线程池和同步线程池区别_同步逻辑电路和异步逻辑电路线程同步与异步区别关于线程同步(7种方式) 如果朋友您想转载本文章请注明转载地址”http://www.cnblogs.com/XHJT/p/3897440.html”谢谢为何要使用同步？ &nbs

2024年 7月 27日
激活谷笔记

Clion激活2024.1.4(IntelliJ IDEA 2024年最新下载、激活教程、亲测可用)

Clion激活2024.1.4(IntelliJ IDEA 2024年最新下载、激活教程、亲测可用)

2024年 7月 12日
单片机的c语言应用程序设计第三版答案_从零开始学单片机c语言pdf

单片机的c语言应用程序设计第三版答案_从零开始学单片机c语言pdf例说51单片机（C语言版）（第3版）（附光盘1张）简介，目录书摘目录:第1章　轻松看MCS-51　11-1　微型计算机与单片机　21-2　8051基础知识　21-2-1　8×51的结构　21-2-2　89C51/89S51的封装

激活谷笔记 2024年 9月 6日
fft的幅度_fft幅值与频率的关系

fft的幅度_fft幅值与频率的关系为什么FFT后幅值要除以N/2原因是DFT的频谱是用谱密度定义的，即它的幅值表示的是单位带宽的幅值。个离散点的DFT（我这里说的是实数DFT）将产生个频率点，频率的序号是从，需要注意，如果是复数，点DFT将产生个频率点。所以点实数DFT以后，频谱带宽是，每个频率点占的

激活谷笔记 2024年 8月 7日
l298n直流电机驱动程序

l298n直流电机驱动程序微型直流电机控制基本方法 L298N模块1 //控制板引脚定义 2 int motor_c_ENA=6; 3 int motor_c_IN1=8; 4 int motor_c_IN2=7; 5 6 //子函数定义 7 void go_f

激活谷笔记 2024年 7月 27日
激活谷笔记

ds1302有几个电源引脚_ds1302的引脚图

ds1302有几个电源引脚_ds1302的引脚图基于CW32实时时钟DS1302应用1. DS1302是一款集成了实时时钟（RTC）功能的芯片。RTC是一种能够精确测量和跟踪时间的电子设备，可以提供准确的日期和时间信息。DS1302实时时钟芯片由Maxim Integrated（美信半导体）生产，具有以下主要特点：①时钟精度：DS1302采用32

2024年 5月 20日

余弦相似度的取值范围_余弦距离和余弦相似度

相关推荐