加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_阳江站长网 (https://www.0662zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

搜索策略产品必读系列—第一讲电商搜索引擎整体框架

发布时间:2023-01-14 11:32:30 所属栏目:教程 来源:网络
导读: 前言:现在市面上太多人聊推荐,关于推荐的书也有很多很多。搜索聊的人却很少很少,但是搜索在很多场景中对于流量的转化远远超过推荐,搜索转化的提升对于业务的增长要远远超过推荐。知乎和

前言:现在市面上太多人聊推荐,关于推荐的书也有很多很多。搜索聊的人却很少很少,但是搜索在很多场景中对于流量的转化远远超过推荐,搜索转化的提升对于业务的增长要远远超过推荐。知乎和各大博客里面介绍搜索的文章相对于推荐就少太多了,专门开一个系列和大家聊一聊电商APP智能搜索,AI时代如何做搜索。

1. 电商APP搜索引擎是什么

首先确定一下我们聊得搜索并不是Baidu、Google这种综合搜索引擎,而是像淘宝、京东、美团这类电商APP里面的搜索引擎。

电子商务网站推广之搜索引擎优化策略研究_百度引擎优化搜索_中国外资利用环境优化策略研究

用户通过在搜索框中输入关键词,然后搜索引擎返回相关商品,并按照一定顺序返回展示给用户。电商APP里的搜索引擎和我们平时使用的Baidu、Google主要有什么差异了:

2. 电商APP中的搜索引擎为什么重要

那么我们为什么说电商APP中的搜索引擎特别重要。

百度引擎优化搜索_电子商务网站推广之搜索引擎优化策略研究_中国外资利用环境优化策略研究

一方面随着网上购物消费群体的多样化以及年轻人不断增强的自主意识,用户已经从传统的“被动”接受网站推荐的商品信息,转变为“主动”去发现商品,发掘自己感兴趣的商品。那么APP中的搜索功能就成为了非常重要的功能,能否识别用户的意图并且准确地返回相应的商品就十分关键。

另一方面数据显示:

通过上面的数据我们可以直观地看出搜索功能对于电商APP流量的转化起到多大的作用。

同时我们再算一笔账:

2019年淘宝全年成交金额为5150亿美金,假设其中70%是由搜索转化的,也就是说3605亿美元是由搜索入口转化的。

那么如果我们通过提升搜索体验,丰富搜索辅助功能等,将70%的搜索销售归因转化净提升1个点到71%。

淘宝全年的销售额将增长51.5亿美元,这是一个什么概念?2019年叮咚买菜全年销售额为50亿RMB,大概是7个叮咚买菜的体量。所以互联网企业都在大力提升搜索的转化率,转化率每一个点的提升,带来的都是全年业务量的巨大增长。

3. 搜索的整体框架

介绍完搜索的重要性,那么我们如何去提升搜索的转化率,如何去搭建一个搜索引擎,在电商APP中的搜索引擎整体框架到底是怎么样的了?我们用下图来进行表示:

电子商务网站推广之搜索引擎优化策略研究_百度引擎优化搜索_中国外资利用环境优化策略研究

下面我们针对上图中的每个模块一个一个进行详细介绍。

3.1 分析器

分析器的作用就是对用户的Query进行处理,进行纠错预处理后,然后再进行切词、拼音转汉字、去停用词等,最后将整个Query分成单个词组合以后再进行实体识别。

中国外资利用环境优化策略研究_电子商务网站推广之搜索引擎优化策略研究_百度引擎优化搜索

比如用户输入了“kangshifu红烧方便面*% ”,

下面链接是阿里云OpenSearch对实体识别的详细介绍,感兴趣的读者可以阅读:

3.2 词库

3.1里面提到的一系列操作都离不开词库,没有词库分析器寸步难行。我们知道“kangshifu红烧方便面%”里面的kangshifu应该是“康师傅”,然后Query的断句应该是“康师傅”、“红烧”、“方便面”而不是“康”、“师傅”、“红”、“烧方便面”,就因为我们已经对这些词汇固定搭配有了一定知识积累,同时“*%”对于查询是没有任何意义的,也是基于我们历史的词汇和知识积累。但是计算机不知道,我们如何让计算机知道“康师傅”是一个固定搭配,同时它是一个Brand,这就需要我们建立各种各样的词库了。

电商APP搜索引擎中词库是非常重要的,第一词库全不全,第二词库准不准。不同行业不同领域会有自己专门的词库,大部分词库都不是通用的。下图是阿里云Opensearch建立的电商行业的实体词库类型。

电子商务网站推广之搜索引擎优化策略研究_中国外资利用环境优化策略研究_百度引擎优化搜索

但其实还有很多实体词库类型需要补充,比如生鲜电商业的SPU、口味、包装等。同时还会存在大量的同义词库、近义词库、纠错词库、拼音词库等等。计算机如何知道用户搜索“圣女果”和“小番茄”是一种东西,这就需要同义词库。同义词库需要大量的积累,尤其是在生鲜电商领域,同样一种菜,全国各地叫法都不一样,但是对应的是同一种菜。同时还存在同一种叫法,对应的是不同种食物,比如“珍珠米”在上海就是玉米粒,在东北是一种大米。

所以词库的建立是必不可少的,同时又是一个需要长久积累,且持续更新不断细化的过程。

3.3 Recall & Elasticsearch索引

当我们将“kangshifu红烧方便面*% ”经过分析器处理后,得到【Brand:康师傅;Taste:红烧; SPU&CATEGOY:方便面】后,我们需要构建召回条件,就是用上述哪些实体去物料库中进行召回。

召回的基础就是电商APP的搜索针对的物料是固定的,也就是当前APP上架的所有商品,背后对应的就是整个APP物料库。在最开始时我们就需要对整个物料库进行结构化梳理,数据库里面存储的是结构化数据,而不只是一个商品名“康师傅红烧牛肉面100g”。结构化数据如下图:

中国外资利用环境优化策略研究_百度引擎优化搜索_电子商务网站推广之搜索引擎优化策略研究

如何对物料进行结构化梳理,一方面就是物料入库时商品运营需要人为手动地对商品进行CATG1、2、3进行分类,需要分类清楚,相应的规格、产地等等都需要输入准确,另一方面就是模型根据一定的规则通过商品名进行相关实体的提取,比如口味、SPU等,这个前提建立在商品名是正确且完整的,如果商品名本身没有该实体信息,模型也是无法提取的。

目前业内通用的分布式搜索引擎是Elasticsearch,查询速度很快。结构化的物料数据都存储在Elasticsearch中。

【Brand:康师傅;Taste:红烧; SPU&CATEGOY:方便面】通常情况下我们会将实体之间通过and关系去物料库中进行召回,但上述“方便面”存在两个属性,所以会两个属性分别去进行召回。同时我们也会加入同义词,构建新的召回条件,比如“方便面”的同义词存在“泡面”,同时同义词性是在SPU这个实体下存在的,所以我们会再构建一个召回条件【Brand:康师傅;Taste:红烧; SPU:泡面】。

在生鲜电商中召回条件构建比较简单,但在综合电商中比如用户搜索【王一博同款白色卫衣限量版】,我们就需要拆分召回条件,如果用【王一博 and 同款 and 白色 and 卫衣 and 限量版】去索引中进行召回,可能召回的结果就会很少。所以我们需要重新构建召回条件,进行Query改写,挑选比较重要的条件去召回,其他条件忽略。我们可以将Query改写为【王一博 and 白色 and 卫衣 】所以实体与实体之间是存在优先级的,有些实体属性是要优于其他实体属性的。

最终我们召回得到搜索结果。

3.4 Ranking

召回的搜索结果如何进行排序了,一般我们从以下两个方面进行考虑:

通常情况下第一种和第二种我们是综合在一起进行加分电子商务网站推广之搜索引擎优化策略研究,然后再对商品进行综合排序。

上述整体地介绍了召回和排序模块,实际应用中召回和排序模块还有很多细节,后续我们会专门再对这两个模块进行详细介绍。

3.5 Reranking

上述是一些通用的规则或者模型排序策略,实际业务方还会有一些其他要求,比如最近业务方在对“康师傅”牌的方便面做市场推广活动,那么在用户搜索“方便面”时,业务方就希望我们将所有“康师傅”品牌的方便面排序在前。所以很多时候Ranking的结果还需要经过一层Reranking再排序,这一层主要是业务策略的排序。

3.6 AB Test

最后就是AB Test实验台,很多时候我们线上有很多套搜索策略,为了对比不同策略的用户点击效果等,我们需要同时进行AB Test实验,也就是我们类似我们高中学过的控制变量法,同一时间段线上生产APP,用户的访问进行随机切分到不同的实验桶中,最终对比二者的效果。

上面就是一个电商APP搜索引擎通常的整体框架了。

4. 搜索的效果评估

当我们将搜索引擎搭建好以后,如何去评估搜索引擎的好坏了?通过哪些指标去评估搜索的效果。

4.1 线下评估

线下评估对于搜索来说是最难评估的,当搜索引擎没有上线时我们如何去评估搜索引擎的效果好坏。这个时候我们需要构建测试case,并对这些测试case进行数据标注。比如我们从用户历史搜索词中随机抽取100个Query,然后人工针对这些Query进行物料标注,每一个Query应该召回哪些商品,每个商品的相关度分数是多少。我们不会对所有物料进行标准,因为工作量太大了,通常标注几千到1万个物料。然后将相关度分为几个档次,比如【2,1,-1】三个档次,2表示强相关,1表示一般相关,-1表示不相关。然后人工根据自己的经验进行标注。

比如物料是【康师傅方便面、统一方便面、康师傅矿泉水、汤达人方便面】

那么Query=“方便面”时,我们可以标注为【2,2,-1,2】;

Query=“康师傅方便面”时,可以标注为【2,1,-1,1】;

这些标注都是人工进行标注的,标注员的标准不一样,可能整个结果完全不一样,所以最开始就需要大家统一好标准,很多时候我们是根据搜索引擎的策略进行标注。

用户搜“方便面”,只召回了“康师傅方便面”,那么召回率=1/3;如果三款方便面全部召回了,召回率=3/3=100%;

搜索引擎不仅要将所有商品召回,排序也要合理,理论上打分结果最高的结果排序在最前面,打分结果最低的排序在最后面,搜索“康师傅方便面”,不能是“汤达人方便面”排序第一位。具体计算公式如下:

电子商务网站推广之搜索引擎优化策略研究_中国外资利用环境优化策略研究_百度引擎优化搜索

4.2 线上评估

线上我们可以使用很多种指标进行多方面效果评估,一般采用如下指标:

百度引擎优化搜索_中国外资利用环境优化策略研究_电子商务网站推广之搜索引擎优化策略研究

上面就是电商APP智能搜索系列的第一讲了,主要给大家介绍了整体框架和评估体系,后续会继续推出:

电商APP智能搜索第二讲—如何召回搜索结果

电商APP智能搜索第三讲—如何排序搜索结果

电商APP智能搜索第四讲—搜索引擎的业务效果评估指标

电商APP智能搜索第五讲—搜索结果的内容形式和创意形式,会对很多模块进行更加细致的讲解~

点赞和喜欢是对原创最大的支持,谢谢!关注我,了解策略产品经理和AI产品经理最新动向~MonkeyELuff进策略产品经理交流群,每周六晚上直播分享策略干货和科技行业前沿发展~

(编辑:应用网_阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!