业界动态
终于把微软BING搜索-SPTAG算法的原理搞清了
2024-11-07 22:53

作者 | beyondma 转载自 CSDN 博客

终于把微软BING搜索-SPTAG算法的原理搞清了

近日,微软在GitHub上开源了其BING的搜索算法SPTAG,github地址:https://github.com/microsoft/SPTAG。这个算法笔者简单看了一下,的确是很有价值可以看大家介绍下,这种称为SPTAG (Space Partition Tree And Graph)目前的翻译多称为“空间分区式的树和图”,其实个人认为这种说法不太准确,其实这里的图与图论中的图意思一致,表示的是连接关系,并不是图像的意思,,而且我们一会仔细也会发现其算法中还带有平衡(balance)的概念,感觉译为”高维空间平衡树“更为准确。

SPTAG能做什么

微软在github上的介绍中给出的官方解释如下“This library assumes that the samples are represented as vectors and that the vectors can be compared by L2 distances or cosine distances. Vectors returned for a query vector are the vectors that have smallest L2 distance or cosine distances with the query vector. "

简单解释一下,就是微软认为图像、声音文字都能被表示为向量,而且可以用L2距离及余弦距离(cosine distances)表示其关系。这段我给读者解释一下,什么叫可以用余弦距离表示向量之间的关系。

图1.北京地图

图2.中国地址

图3.华盛顿特区地图

图4.美国地图

那么如果我把上述这四个图都转化为了向量,那么会有

vec图2-vec图1=vec图4-vec图3

也就是说在图片转化为向量后,向量的位置关系保留了其图片含义所代表的逻辑关系。这就是”L2距离及余弦距离(cosine distances)表示其关系“的具体解释。

不过这次微软并没有公开把图片、声音及文字转化为向量的技术,目前文字转化为向量的主要技术是word2vec算法,图片转化为文字的技术,读者也可以通过Facebook前些时候公开的Pytorch-Biggraph算法来了解,具体可参考我之前的博客https://blog.csdn.net/BEYONDMA/article/details/90114016

那么说到现在我们可以了解SPTAG算法工作的前提就是将已经将用户搜索的要素转化为了正确位置上的向量,SPTAG就是要找到这个向量在空间上的最近邻,说到这读者是否对SPTAG的工作方式有了更进一步的认识了呢。

SPTAG工作原理简述

对于搜索算法有了解的同学可能都会了解,搜索算法中一般有索引(index)和查寻(search)两个重要部分组成。SPTAG的索引(index)算法是基于kd-tree的。

kd-tree听起来很高大上,其实他在于一维空间上的情况就是”平衡二叉树“,在高维空间上kd-tree会用第k维的大小来决定一个元素应该插入左子树还是右子树,同时为保持tree的平衡,剩余未进入tree的元素除第k维外方差最小。SPTAG正是以此来加速算法的速度。

kmeans其实就是一种自动聚类的方法,算法先随机指定选取K个点做为初始聚集的簇心,分别计算每个样本点到 K个簇核心的余弦距离,找到距离最近的核心点,将它归属到对应的簇,所有点都归属到簇之后, M个点就分为了 K个簇。之后重新计算每个簇的重心,将其定为新的“核心”,重复上述步骤直到新核心不再改变为止或者改变距离达到一定值后中止。那么最终的K个簇就是最终的聚类结果。

SPTAG 正是集合了kd-tree 和 kmeans 两种算法的精华,才允许用户利用深度学习模型在几毫秒内搜索数十亿条信息。

原文:https://blog.csdn.net/BEYONDMA/article/details/90578111

    以上就是本篇文章【终于把微软BING搜索-SPTAG算法的原理搞清了】的全部内容了,欢迎阅览 ! 文章地址:http://nhjcxspj.xhstdz.com/news/510.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 物流园资讯移动站 http://yishengsujiao.xhstdz.com/ , 查看更多   
最新新闻
云南百度推广整改报告(云南百度推广办理电话)
大家好,今天小编关注到一个比较有意思的话题,就是关于云南百度推广整改报告的问题,于是小编就整理了1个相关介绍云南百度推广
2024 出海买量新策略,如何通过 Target ROAS + CPI 实现高效用户增长
在移动应用市场竞争激烈的当下,新规频出、新竞争者增加、预算紧缩等多种因素都让开发者的出海买量之路愈发困难。在外部环境竞争
百度免费推广产品的有效策略
在当今数字化的商业环境中,利用百度进行【凌海网站开发】免费推广产品是一种(黑帽seo)潜力的策略,百度作为全球(黑帽seo)的中文
如何有效运营抖音账号提高粉丝数量与互动?
抖音作为当下最流行的短视频平台,拥有庞大的用户群体和广阔的市场潜力,成为许多人赚取积极影响力和商业机会的渠道。然而,要在
专访麻辣德子:曾1月涨粉千万,现在对涨粉已经“佛”了
麻辣德子大概是抖音上「最有礼貌」的美食达人。他从今年1月开始爆红,1个月涨粉近千万,迄今为止更新的201个视频中,几乎每条视
如何在花糖直播上查看主播的等级和经验?
在花糖直播平台上,观看主播的等级和经验是一项非常有趣的体验。这不仅可以帮助你更好地了解主播的实力和经验,还可以帮助你做出
TK直播带货火了!两年还清6个亿,现在入场还来得及吗?
大家好,我是雅柚。一个专注于TikTok玩法的跨境电商自媒体人,关注我,每天都有干货资讯。最近TK小店跟直播带货真的太多人来问了
7大短视频平台优劣势对比,不同行业在哪个平台投放内容比较好?
国内最强的AI写作工具,帮你写爆款文案短视频:基于移动端传播的时长五分钟以下的视频内容;短视频独立平台:以短视频为核心业务,
【主播培训】抖音个人简介怎么写能够精准引流吸引粉丝
(本文转载自网络)抖音里面id如何修改呢?抖音个人简介怎么写能够吸引粉丝?抖音怎么精准引流吸引粉丝呢?想知道的小伙伴就和小
b站视频数据分析平台有哪些?B站视频数据分析工具汇总-电商短视频电商数据分析电商工具
本文主题电商短视频,电商数据分析,b站,短视频,数据分析,电商工具。做视频投放、在B站做视频带货,都需要借助视频分析工具的帮助
本企业新闻