当前位置:首页 > 客户案例 > 正文

垂直搜索引擎举例(属于垂直搜索引擎的有哪些)

编辑导语:俗话说“万事皆可百度”,当我们在生活和工作中遇到问题时,第一反应就是利用好搜索,通过各种搜索软件解决自己的困惑。你知道当你按下搜索键时发生了什么吗?

字比较多,所以分为上中下三个部分。全文目录如下:

俗话说“万事皆可百度”,“没有什么是难的,只要百度愿意”,搜索已经成为我们生活中的一件稀松平常的事情。毕业季,我们会在日常的99+群聊信息中搜索所需信息;早上下班后,我会点外卖,了解一下今天有没有想吃的午饭;晚上回家的路上,打开社交平台,搜索看看今天有什么头条…

搜索的瞬间,结果已经出现在屏幕上,快捷方便。众所周知,在小小的屏幕下,搜索引擎已经有条不紊地在其庞大的数据库中完成了搜索和排序…

一.搜索

"当你最终收集到所有相关信息时,你会做什么?"

作家詹姆斯·格雷克在《信息简史》中说,在信息的洪流中,也出现了各种应对策略。方法有很多种,但归根结底可以归为两类:要么过滤,要么搜索。

如今,我们每一个人都具备了自由生产和消费信息的能力,大量的信息正在涌入数据库。心理学家斯坦利·米尔格拉姆(Stanley milgram)的社交网络实验“六度分离”证明,在这个星球上,最多还有另外六个彼此分离的人。

信息也是如此。在复杂网络中,事物具有高度的连通性,但并不是所有的连接都是有价值的。这些不寻常的连通性使得信息的搜索变得困难,而搜索似乎是一件永无止境的事情。

上世纪90年代末,就有人预言在如此庞大的信息量中完成搜索是不可能的,但时至今日,搜索引擎虽然有时还不尽如人意,但已经具备了基本的功能。

搜索介绍

保持活力的方法就是保持“血液”的流动。从古至今,人类一直在寻找更新更快的联系和互动方式。

搜索加速了信息的流通,打通了海量数据之间的自控状态,让信息公开化。用户可以快速获取高价值信息,企业和平台也可以通过搜索向用户推送信息。我们可以更准确的找到结果,同时也可以看到更多的相关内容。

搜索是一种在互联网上收集、整理和搜索信息资源的互联网技术。到目前为止,产品的搜索功能为用户提供的不仅仅是信息输入的搜索框,还有用户的主动推荐,引导他们消费产品中最优质的内容。

可以说,搜索给我们带来了全新的数字生活。在铺天盖地的信息中,消费者依靠各种搜索来辨别精华和糟粕。尤其是新手用户,可以快速了解产品包含的服务模块,如下图所示,是微信、淘宝、知乎的搜索界面。

微信为一款手机通信软件:通过搜索,提供给用户的内容包括有朋友圈、文章、公众号、小程序、音乐、表情、服务;知乎为一款问答社交软件:提供时事热榜、数码、影视、科学、体育等栏目;淘宝为一款线上购物软件:主要解决用户的购物需求,在搜索界面可以看到的功能模块有搜索记录、热搜推荐(商品内容)。

第二,搜索引擎

搜索引擎是一种检索技术,其核心模块一般包括爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等。根据用户的需求、一定的算法和特定的策略,为用户提供高速、高相关性的信息服务。

搜索引擎的基本结构一般包括四个功能模块:搜索器、索引器、检索器和用户界面。搜索引擎通过其结构实现搜索工作,其基本原理可分为信息采集模块、查询表模块和检索模块。

我们从APP、网站、小程序等不同载体看到的搜索框。实际上只是搜索引擎系统提供给用户的搜索界面。当我们输入关键词点击查询时,搜索引擎对我们输入的文本进行复杂的分析,从庞大的数据库中获取所有相关信息,并按照一定的排序策略将搜索结果呈现在用户界面上。

不同的搜索引擎有各自的搜索策略,其索引获取、查询分析、排序算法都不一样,所以在不同的产品搜索引擎中搜索同一个查询会得到不同的结果;目前搜索引擎收集用户行为数据,侧重于个性化推荐。如果在同一产品的不同时期搜索一个关键词,可能会得到不同的结果页面。

具体流程如下:

说到搜索,百度、谷歌、淘宝等电商平台的搜索框,微博等社交平台的搜索框立刻浮现在脑海里。这些常用的搜索引擎主要是全文搜索和垂直搜索。此外,搜索引擎的类型还包括目录搜索、元搜索、集合搜索、门户搜索等。

全文搜索:全文搜索从互联网上提取网站信息,对海量的数据进行有效的管理和快速检索,最常用的全文搜索引擎有百度、谷歌等;垂直搜索:垂直搜索引擎是针对某一行业的专业搜索引擎,是搜索引擎的分支和延伸。相较于通用搜索引擎,提供深度、准确性更高的搜索服务。垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索、购物搜索、房产搜索、人才搜索、mp3搜索、图片搜索、工作搜索、交友搜索等,几乎各行各业、各类信息都可以进一步细化成各类垂直搜索引擎。

2.1 分词

分词是我们在搜索功能中经常听到的词之一。

分词是通过规则或算法将一段文本分割成多个词,每个词作为搜索中最细的单个词或词。分词的目的主要是为了搜索,尤其是在数据量很大的情况下。分词的实现可以快速高效地筛选出相关性高的文档。

在搜索过程中,分词由搜索引擎中的分词装置完成。分词装置作用于用户的输入内容和文档索引建立。前台文字内容的输入来源于不同用户的需求;指标来源可以根据业务需求确定,也可以由用户自定义设置。

比如在垂直电商业务中,我们构建索引的原始数据可以是标题、详情、类目信息、品牌信息等。的商品,或者我们可以从后台创建新的字段,然后经过分词过滤后进入索引区,等待检索。

2.1.1分词过程

用户在搜索引擎界面输入关键词,点击“搜索”按钮后,搜索引擎程序开始处理以下搜索词:分词,根据情况判断是否需要启动整合搜索,找出错字和拼写错误,去除停用词。

分词的实现主要依靠分词。分词装置是分析器的三个组成部分之一,文档的分词还涉及分词前的预处理和分词后的过滤操作。分析器的三个组成部分是:字符过滤器、断词器和过滤器,其中文本流的顺序是字符过滤器-断词器-过滤器。

分词前,原文会流向字符过滤器,接受原文作为字符流,通过加减修改改变字符流。处理后的码流进入分词装置,按照特定的规则和算法进行分词,最后经过不同的过滤器进行处理。一个分析器可以有0个或多个字符过滤器和过滤器,并且只能有一个断词器。

字符过滤器:字符过滤器用于字符流传递到分词器之前对它进行预处理,字符过滤器支持数字的转换;将所有指定的字符串替换成特定的字符串;将任意字符转换为置顶字符。分词器:不同语言分词规则有所差异,英文分词、中文分词、拼音分词的分词策略各不相同。英文分词可以根据空格将单词分开,中文分词比较复杂,可以采用机器学习算法来分词。过滤器:将切分的单词进行加工。如大小写转换、去掉停用词(如“最”、“因为”、“和”)等,该过滤器不同于检索时过滤器。

2.1.2分词算法

现有的分词包括英文分词、中文分词和拼音分词。中文分词不同于英文分词,中文分词存在更多的困难和歧义。不同的分词策略对文档的召回率和准确率有很大的影响。

英语中的单词在输入时用空大小写、逗号、句号分隔,以便更好的识别。汉语由词和词组成,词组成句子。如何合理分词,准确传达用户意图和需求,是中文分词的难点。拼音分词和中文分词相结合,可以更全面的处理用户的速记、输入错误等使用场景。

拼音分词可以用来分析单词的完全拼写、首字母的完全拼写、单词的完全拼写等。,并且可以定制。拼音分词配合中文分词,完成关键词的过滤过程,达到高效分词的目的。

中文分词算法主要分为三类:基于词典的分词、基于统计的分词和基于有序标注的分词。

不同的分词策略要适应各自的业务场景。有些业务场景可能要求分词的准确率大于速度,有些则要求速度大于准确率。因此,在理解分词原理的基础上,如何满足业务需求,高效实现分词功能,对算法工程师提出了更高的要求。

2.1.3使用分词

垂直搜索引擎举例(属于垂直搜索引擎的有哪些)  第1张

在搜索过程中,在文档索引过程和用户输入文本检索过程中使用分词装置。需要注意的是,索引过程和检索过程中使用的分词装置应该是一致的。

索引使用:原始文本预处理后,使用分词器将文档内容切分为单个字词;检索使用:用户输入文本对象,分词器进行分词处理,分词后建立query对象,执行检索操作。

与英文分词相比,中文分词没有空格作为词与词之间的分隔符,中文词的组合复杂且有歧义,一直是自然语言处理的难点。

2.2 构建索引

索引是一种辅助数据结构,它对数据库表中一列或多列的值进行排序。建立索引有助于查找和排序表中的数据。在搜索时,数据库系统不必扫描整个表,而是直接定位符合条件的记录,大大加快了查询速度,达到了以下目的:

索引构建在大大缩短查询时间的同时,也带来了一定的成本。创建和维护索引需要时间成本和空成本。随着数据量的增加,占用的物理存储空也会增加。在数据量大、查询功能使用频繁、需要排序优化的业务情况下,需要建立索引。

索引的构造主要包括倒序索引和正序索引。倒排索引是对关键词进行索引,以便快速得到匹配的文档集;正排序索引对文档进行索引,便于排序、筛选和汇总。倒排索引和正排索引是搜索引擎的重要数据结构,检索等后续操作都基于它们。

2.2.1反向排序索引

1)反向排序索引的引入

倒排索引又称倒排索引、发文文件或倒排文件,是一种索引方法,用于存储全文搜索下一个词在一个文档或一组文档中的存储位置的映射。

索引是一种更快速查找文档的数据结构,相当于书籍中的目录。用户可以根据目录快速找到所需内容。倒排索引不是根据目录或编号来定位内容,它是通过文档中的某个词或词来查找文档的索引类型,并通过立即标记该词来快速获得结果。倒排索引的建立和维护比较复杂,但查询快速、方便、高效,是文献检索系统中最常用的数据结构。

2)倒排索引的构建过程

对于反向排序索引的构造,两个表是必不可少的。表1是文档号和文档内容,表2是分词后的关键词和对应的文档号。存储数据时,将表2拆分成两个数据结构,分别用于存储倒排文件、关键字及其偏移量。

搜索最基本最简单的过程就是外部关键词的输入。在表2中,您可以找到关键字和文档编号的位置,并最终输出结果文档内容。

2.2.2正排序索引

前向索引,以文档号为关键字,在表中记录文档中每个单词的位置信息,扫描表中每个单词的信息,直到找到所有包含查询关键字的文档。正排序索引的查询往往满足每个文档在全文中是有序的、频繁的,每个单词在验证文档中被验证的查询。

正索引可以查询汇总关键词的属性、相关频率和位置,适用于一些过滤和汇总操作。

比如搜索“干米”时,可以快速找到包含“干米”关键词的文档,有利于计算关键词相关度和权重。正排序索引。搜索“干米”时,搜索引擎需要检索每一个文档中的每一个关键词。正排序索引适用于某些区间的索引。在电子商务的搜索中,有许多过滤和筛选选项,因此需要同时引入前向索引和后向索引。

2.3 检索

未完待续…

索引建立后,可以根据提供的关键词进行搜索。关键词的搜索、排名和搜索指导会在你按下搜索键会发生什么(第二部分)中简要介绍。

本文主要试图从小白的角度来理解搜索引擎的工作原理和工作流程。说到第一个搜索栏,如果文中的概念和措辞有偏差,请留言评论,学会虚心改正。

本文由@大仓鼠原创发布。每个人都是产品经理。未经许可,禁止复制。

来自Unsplash的图像,基于CC0协议。

0