搜索策略：PC端时代起的流量入口

来源：职业技能发布时间：2024-05-28 02:13:28

: ~~暂无价格~~

产品说明

搜索引擎曾经是PC端第一流量入口，百度就靠这个成就了BAT的江湖地位。虽然现在昔日荣光不在。但搜索功能依然是部分APP最大的流量入口。这篇文章，我们就来梳理下这个搜索功能的过往。

早在PC互联网时代，搜索引擎便是流量的主要入口。由于网站数量的迅速增加，传统人工浏览的方式已经不能够满足用户获取信息的需求，为此1995年诞生了很多早期的搜索引擎公司，如Yahoo、Excite、InfoSeek等。

移动互联网时代，虽然一些内容类App上推荐系统主导了流量的整体分发，但在一些综合类电商App上（如淘宝、京东），搜索仍是最大的流量入口。

1990年，Archie by加拿大麦吉尔大学，用于FTP（file transfer protocol）软件上的文件搜索，Archie能够准确的通过文件名称查询文件所在FTP地址，然而它并非现代意义上的搜索引擎（不能搜网页、没有机器人程序爬取，故只是雏形）。1994你那，卡内基梅隆大学创办的Lycos被公认是第一代互联网搜索引擎的代表，可以按分类目录进行搜索，然后这一些信息被统一归类到一个网站上。

第一代搜索引擎的核心问题：如何通过机器自动爬取这些网页，并将这些网页归类到对应目录下。

1996年，产生了支持用户输入检索词并返回信息的检索方式，系统计算相关性，返回网页并排序，代表引擎是Excite、Alta Vista。

为了排除垃圾网站，斯坦福大学学生（Google创始人）推出了全新的排序算法：PageRank，核心思想是通过网页之间的互相链接来侧面反映网页的流行性和权威性，该算法大多数都用在网页排序。02年世界门户网站基本都在使用Google搜索引擎，Google整合成了一个门户网站的状态。

第三代搜索引擎的核心技术：高效匹配用户的检索词和网页内容，返回高关联度的相关联的内容并过滤低质内容，结合流行性和权威性进行科学排序，缺点在于未考虑个体的差异性，返回结果所有人都一样。

第四代搜索引擎除了在功能上支持文本搜索以外，还需要支持图片搜索、识曲搜索、视频搜索、语音搜索等多种功能，召回和排序需要重点考虑个性化，对于不同用户，同一检索词返回的内容不同但更合适，得益于AI的不断进步。

第五代搜索引擎需要以解决用户实际问题为出发点，当网络上没有现成答案时可以自行为用户解答，具备知识问答的功能，Bing在第五代搜索引擎中已经拔得头筹。（搜索引擎是一个需要强积累的技术产品，不太可能突然诞生一个强有力的新秀）

对于垂直类搜索引擎，比如电商App搜索引擎，仍是以电商App第一大流量入口，搜索引擎贡献GMV差不多占电商App整体GMV的70%，在其上进行微小策略优化最终产生的绝对收益是非常大的。

本质上是一种信息检索系统，从海量的信息中检索出和用户查询相关的信息，现阶段不仅有搜索的功能，也有推荐系统（信息过滤系统）的逻辑。因为筛选之后推荐感兴趣的也是搜索引擎要解决的问题。

理解用户意图，返回高相关的匹配内容。这是搜索引擎最重要的目标，其他目标都需要以该目标为前提。此处的“精准”不仅是指物料和检索词之间的相关性匹配，还包括物料与用户个性化偏好、差异化需求的精准匹配。

一方面是内容的全面，搜索引擎能够很好的满足所有需求；另一方面是功能的全面，支持不同场景下的需求。

除平台整体以算法为导向的策略调控，还需要具有完善的以强业务干预为导向的人工运营功能。

对于电商，用户检索行为信息可当作业务人员采用商品的参考；对于内容搜索引擎，可以指导平台的内容生产。

准确识别用户的查询意图：处理大量不规范检索词时如何更好地识别复杂检索词背后的真实意图。

实现查询和物料的匹配：如何从平台上海量的物料中召回相关的物料，物料丰富时择优，物料匮乏时找替代，降低搜索到空结果率。

科学地对返回的物料进行排序：基于用户个性化偏好和物料本身的相关性、权威性、流行性等因素进行科学的排序，此世搜索引擎有了推荐系统的逻辑。

做到有问必答，解决用户大部分查询需求：第五代搜索引擎要解决的关键问题。

以上是一个完整的搜索引擎应该有的功能模块，常见的流程包括建立物料索引、查询语义理解、召回、粗排、过滤、精排、重排，最终在前端为用户返回搜索出来的结果。（比推荐策略多了两个功能模块：查询语音理解与词库），但是单个模块的子功能相对推荐系统更多，且处理逻辑有差异；

按照用户搜索的流程可以将用户行为分为搜索前、搜索中、搜索后三个部分。在搜索前、中两个模块，一般设置搜索底纹、搜索排行榜以及搜索联想词等功能，起到降低复杂度、引导的功能，同时也会针对错误检索词自动纠错。

该模块最大的作用是充分理解用户的检索词，构建查询语法树，输入召回模块中。查询语法树的构建通常要经历以下几个环节：

该体系能够理解为查询语义理解模块的辅助功能模块，分词的基础便是词库。在实际使用中用户要有针对地构建自己的词库，词库的构建没有捷径。

查询语法树构建好后的环节就是物料召回，搜索引擎召回和检索词相关的物料，采用多路召回架构（召回路数远小于推荐系统）。目前常见的召回方式有：文本召回、语义相关性召回、个性化召回。

在综合类搜索引擎，召回不会翻页刷新，但是在垂直类搜索引擎内搜索引擎下翻时会进行翻页刷新。

搜索引擎进行召回时还要用到一个辅助模块，即物料索引。因需要召回和检索词相关度高的物料，所以要针对物料提前构建倒排索引。搜索引擎中的物料需要基于物料的标题等对物料的信息进行切词处理，针对每一个词构建对应的倒排索引，当用户查询时，能够迅速检索到对应的结果。

过滤环节在粗排和精排环节前，一种原因是避免无效物料进入后续环节，影响后续效果，另一方面是提前过滤无效物料，减少无效环节的计算量。对于垂直类搜索引擎，主要按照SKU的库存、上下架、是否涉及黄赌毒进行过滤；对于综合类搜索引擎，主要是针对是否包含黄赌毒或者政治敏感信息等进行过滤。一般来说，对于同一个APP，搜索引擎和推荐系统的过滤逻辑基本一致。

粗排的目的是对搜索出来的结果进行初筛，基于召回点击率or召回转化率的逻辑，搜索引擎会有更多的排序因子。

精排模型的目的是实现单点最优（point wise），大多数都用在预估单个搜索引擎的CTR和CVR。电商领域以预测CVR为主，综合搜索引擎以预测CTR为主。

三大重排策略：全局最优、使用者真实的体验和流量调控，实际落地要求不一样，需要以“序列最优”为核心目标对搜索出来的结果进行重排。使用者真实的体验的重点是搜索出来的结果的精准性和全面性。搜索出来的结果页的流量调控最重要的包含对商家、新创作者和新品的一些扶持。重排模块里的物料排序就是最终展示在前端的物料排序。

特征服务作为一种公共服务，可以供搜索引擎所有的环节进行调用，推荐系统和搜索系统经常共用一个大的特征服务模块。

搜索引擎包括召回和排序两大模块，模型也分为CTR预估模型和CVR预估模型两种。对这两种模型进行离线效果评估时和推荐系统一样使用AUC指标。在实际评估时会拆分得更细，分为离线和在线.离线评估指标

：搜索引擎初期需要对数据来进行人工标注，明确物料库里哪些物料应该召回，哪些物料不应该召回，完善人工标注的数据集才能进行离线效果评估。

：搜索引擎不仅要将所有商品召回，还应确保排序合理，理论上应该将评分最高的结果排在最前面。评估搜索出来的结果排序的合理性时，通常用DCG（discounted cumulative gain，折损累计收益）和NDCG指标（normalized discounted cumulative gain，归一化折损累计收益）。

离线效果评估主要评估搜索出来的结果的召回完整性和排序合理性，在线效果评估能够最终靠多方面的指标来评估搜索引擎的结果。

查询无结果率 = 无结果返回的PV数/总搜索PV数，指标越高，搜索引擎召回模块效果越差。

平均点击结果位数 = 总点击结果位数/总搜索PV数，指标越小，排序模块效果越好

CTR = 点击结果数/曝光结果数，统计口径可大致分为UV、PV和曝光件次口径

CVR = 订单数/点击数，评估搜索引擎的综合效果，统计口径可大致分为UV、PV和曝光件次口径；订单数可以分订单行和订单量两种口径。

对于综合搜索类引擎来说，核心考核指标是CTR；对于电商类搜索引擎来说，核心考核指标是CVR，电商业务以GMV为首页目标，搜索引擎需要尽可能将用户的每一次搜索转化为订单。

和召回有关的策略包括查询语义理解模块策略、召回模块策略。这两个模块细分的功能有检索词解析、纠错、检索词改写、查询语法树构建等，均由此部分的策略产品经理负责。在日常生活中，策略产品经理需要分析大量案例，做大量的案例评估，分析检索词和搜索出来的结果之间的相关性，基于案例评估结果与优化查询语义理解模块和召回模块的策略。部分网络公司把查询语义理解模块单独剥离出来，由专人负责。

平台声明：该文观点仅代表作者本人，搜狐号系信息发布平台，搜狐仅提供信息存储空间服务。

上一篇聊聊PLG（产品驱动增长）下一篇【48812】@找作业的你松江这一些企业正在招人→