苹果搜索引擎大全返回结果的异同是什么进行简要分析

百度与谷歌搜索引擎【检索功能】的异同点_百度知道给定关键词,怎么使用spark sql进行查询,然后返回查询的结果。就跟搜索引擎类似,怎么将请求发送给集群_百度知道搜索引擎跟知识图谱那些事 (上).基础篇 - 搜索引擎当前位置:& &&&搜索引擎跟知识图谱那些事 (上).基础篇搜索引擎跟知识图谱那些事 (上).基础篇&&网友分享于:&&浏览:0次搜索引擎和知识图谱那些事 (上).基础篇& & & & 这是一篇基础性文章,主要介绍搜索引擎和知识图谱的一些原理、发展经历和应用等知识。希望文章对你有所帮助~如果有错误或不足之处,还请海涵。(参考资料见后)
一. 搜索引擎
(一).搜索引擎的四个时代
& & & & 根据张俊林大神的《这就是搜索引擎》这本书中描述(推荐大家阅读),搜索引擎从采取的技术划分为4个时代:
& & & &&1.史前时代:分类目录的一代
& & & & 这个时代成为“导航时代”,Yahoo和国内hao123是这个时代的代表。通过人工搜集整理,把属于各个类别的高质量网站或网页分类,用户通过分级目录来查找高质量的网站。这种纯人工方式并未采取什么高深的技术手段,采取分类目录的方式,一般收录的网站质量较高,但这种方式扩展性不强,绝大部分网站不能被收录。
& & & &&2.第一代:文本检索的一代
& & & & 文本检索的一代采用经典的信息检索模型,如布尔模型、向量空间模型或者概率模型,来计算用户查询关键词和网页文本内容的相关程度。早期很多搜索引擎如AltaVista、Excite等大都采用这种模式。
& & & & 相对分类目录,这种方式可以收录大部分网页,并按照网页内容和用户查询的匹配程度进行排序。但由于网页之间有丰富的链接关系,而这一代搜索引擎并未使用这些信息,所以搜索质量不是很好。
& & & &&3.第二代:链接分析的一代
& & & & 这一代搜索引擎充分利用了网页之间的链接关系,并深入挖掘和利用了网页链接所代表的含义。通常而言,网页链接代表了一种推荐关系,所以通过链接分析可以在海量内容中找出重要的网页。被推荐次数多的网页其实代表了其具有流行性,搜索引擎通过结合网页流行性和内容相似性来改善搜索质量。
& & & & Google于1998年成立,它率先提出并使用PageRank链接分析技术,大幅度提高了搜索质量。目前几乎所有的搜索引擎都采取了链接分析技术,但是这种技术并未考虑用户的个性化要求,所以只要输入的查询请求相同,所有用户都会获得相同的搜索结果。另外很多网站为获取更高的搜索排名,针对链接分析算法提出不少链接作弊方案,这样导致搜索结果质量变差。
& & & &&4.第三代:用户中心的一代
& & & & 第三代即理解用户需求为核心的一代搜索引擎。不同用户即使输入同一个查询词,但其目的可能不一样。比如同样输入“苹果”作为搜索词,一个追捧iPhone的时尚青年和一个果农的目的会存在巨大的差异。即使一个用户,输入相同的查询词,也会因为所在时间和场合不同,需求有所冰变化。
& & & & 目前搜索引擎大都致力于解决如何能够理解用户发出的某个很短小的查询词背后包含的真正需求的问题。为了获取用户真正的需求,目前搜索引擎做了很多技术方面的尝试。如利用用户发送查询词时的时间和地理位置信息、利用用户过去发出的查询词及相应的点击记录等历史信息手段,来试图理解用户此时此地的真正需求。
(二).搜索引擎的架构原理
& & & & 搜索引擎通常是用户输入查询词,搜索引擎返回搜索结果。其目标是:更全、更快、更准。
& & & & 搜索引擎需要对百亿计的海量网页进行获取、存储、处理,同时要保证搜索结果的质量。如何获取、存储并计算这些海量数据?如何快速响应用户的查询?如何使得搜索结果能够满足用户的信息需求?这些都是搜索引擎面对的技术挑战。
& & & & 搜索引擎涉及三个核心问题:
& & & & 用户真正的需求是什么(用户输入的查询词非常简单,查询的平均长度是2.7个单词,如何获取用户的真实需求)、哪些信息是和用户需求真正相关的(搜索引擎的本质是一个匹配的过程,即从海量数据中匹配用户的需求内容,如何从判断内容和用户查询关键词的相关性到让计算机真正理解信息所代表的含义)、哪些信息是用户可以信赖的(互联网上所发布内容是否可信并无明确的判断标准,同一个查询的搜索结果可能完全是矛盾的答案,此时信息的可信性尤为重要,链接分析也看成对信息可信度做出的评判)。
& & & & 下图是一个通用的搜索引擎架构示意图:(完全参考《这就是搜索引擎》)
& & & &&搜索引擎后台计算系统
& & & & 搜索引擎的信息来源于互联网网页,通过网络爬虫将整个互联网的信息获取到本地,因此互联网页面中有很大部分内容是相同或相似的,“网页去重”模块会对此作出检测并去除重复内容。
& & & & 之后,搜索引擎会对网页进行解析,抽取出网页主体内容及页面中包含的指向其他页面的链接。为加快响应用户查询的速度,网页内容通过“倒排索引”这种高效查询数据结构保存,网页之间的链接关系也会保存。因为通过“链接分析”可以判断页面的相对重要性,对于为用户提供准确的搜索结果帮助很大。
& & & & 同时由于海量数据信息巨大,所以采用云存储与云计算平台作为搜索引擎及相关应用的基础支撑。上述是关于搜索引擎如何获取及存储海量的网页相关信息,不需要进行实时计算,所以被看做是搜索引擎的后台计算系统。
& & & & 搜索引擎前台计算系统
& & & & 搜索引擎的最重要目的是为用户提供准确全面的搜索结果,如何响应用户查询并实时地提供准确结果构成了搜索引擎前台计算系统。
& & & & 当搜索引擎接到用户的查询词后,首先对查询词进行分析,希望能够结合查询词和用户信息来正确推导用户的真正搜索意图。先在缓存中查找,缓存系统中存储了不同的查询意图对应的搜索结果,如果能在缓存中找到满足用户需求的信息,则直接返回给用户,即节省资源又加快响应速度。如果缓存中不存在,则调用“网页排序”模块功能。
& & & & “网页排序”会根据用户的查询实时计算哪些网页是满足用户信息需求的,并排序输出作为搜索结果。而网页排序中最重要的两个因素是:内容相似性因素(哪些网页和用户查询相关)和网页的重要性因素(哪些网页质量好或相对重要,通过链接分析结果获得)。然后网页进行排序,作为用户查询的搜索结果。
& & & & 同时,搜索引擎的“反作弊”模块主要自动发现那些通过各种手段将网页的搜索排名提高到与其网页质量不相称的位置,这会严重影响搜索体验。现在也出现一种成功的新互联网公司屏蔽搜索引擎公司爬虫的现象,比如Facebook对Google的屏蔽,国内淘宝对百度的屏蔽,主要是商业公司之间的竞争策略,也可看做是垂直搜索和通用搜索的竞争。
(三).搜索引擎简单技术分析
& & & & 按照技术原理,搜索引擎又可以分为三类:
& & & & 1.全文检索搜索引擎(Full Text Search Engine)
& & & & 国外具有代表的有Google、Yahoo、AltaVista、Teoma等,国内如百度、北大天网等。它们都是从互联网上提取各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配相关的记录,然后按照一定的排序将结果返回给用户。
& & & & 2.目录搜索引擎(Search Index)
& & & & 严格意义上它不是真正的搜索引擎,仅仅是按照目录分类的网站链接列表,虽然它具有搜索功能。用户完全可以不用进行关键词查询,仅靠分类目录就可以找到需要的信息,最具代表性的是Yahoo雅虎。国内的搜狐、网易、新浪、hao123等都属于该类。
& & & & 目录界面一般采用分级结构,用户从基本的大类入口一级级向下访问,直到找到中意的内容,用户也可以通过目录提供的搜索功能查询关键词。由于采用人工分类,搜索结果比Robot搜索更精准,但局限性也明显。
& & & & 3.元搜索引擎(Meta Search Engine)
& & & & 在接受用户查询请求时,同时在其他多个引擎上进行搜索,它自己不进行WWW的遍历,也没有自己的索引数据库。当用户查询一个关键词时,它把查询请求转换为其他搜索引擎的命令形式,分别向其他搜索引擎提交,然后汇总这些搜索引擎返回的结果,返回给用户浏览器。著名的搜星搜索引擎就是一个中文元搜索引擎。
& & & & 搜索引擎通常由搜索器、索引器、检索器和用户接口四部分组成。
& & & & 就基于中文字词的特点,由于汉字字符数量多、编码方式复杂、中文词分词(字构成)困难等,所以中文搜索引擎必须要有专门的中文信息处理模块来完成中文文档的分词处理、码制转换和全角处理等工作。
& & & & 同时在“百度招聘”中你可能会看到它的核心部门包括网页搜索部、垂直搜索部等,那么垂直搜索是个什么东西呢?这里作简单的补充。
& & & & 垂直搜索引擎
& & & & 它也称为主题搜索引擎或专题搜索引擎。它是对网页库中的某类专门的信息进行一次整合,只关注某一领域或地域的信息,这些信息存储和索引之后,用户就可以检索只涉及这部分的信息。垂直搜索引擎与通用搜索引擎最大的区别是:通用搜索引擎是面向所有用户的,而垂直搜索引擎是面向某一领域的用户。如酒店、道路、公交、商店信息等,生活搜索引擎极大的满足了用户的出行和旅游。
& & & & 传统搜索引擎的核心技术常见包括:分词技术、网络蜘蛛、索引技术和词频指数。
& & & & 随着智能搜索引擎的兴起,如Ghunt。其核心技术包括自动推理技术、本体知识系统、专家系统等,它更注重于其他科学相融合、个性化搜索、智能化比较高。但我此处就不在叙述,因为知识图谱或知识计算引擎被认为是下一代搜索引擎,我更想与大家分享这部分的基础知识。换句话说,它也是非常智能、需要理解用户需求、以用户为中心的搜索技术。
二. 知识图谱
(一).知识图谱的应用
& & & & 首先通过知识图谱的应用引入这个概念,同时体会它的优点。传统的搜索引擎搜索“姚明的身高”,返回的结果是网页内容与姚明身高的相关一些列链接。如Yahoo:
& & & & 而知识图谱如Google返回的是一个准确的结果“2.29米”,同时右边有一个“姚明”的知识卡片。
& & & &&提出背景:
& & & &&自语义网的概念提出,越来越多的开放链接数据和用户生成内容被发布于互联网中。互联网逐步从仅包含网页与网页之间超链接的文档万维网转变为包含大量描述各种实体和实体之间丰富关系的数据万维网。
& & & & 在此背景下,知识图谱(Knowledge Graph)于2012年5月首先由Google提出,其目标在于描述真实世界中存在的各种实体和概念,及实体、概念之间的关联关系,从而改善搜索结果。紧随其后,国内搜狗提出了“知立方”、微软的Probase和百度的“知心”。
& & & & 如下图所示,通过知识图谱可以搜索到“姚明的女儿”,如百度知心:
& & & & 而传统的搜索引擎仅仅是返回如“百度知道”的提问“姚明的女儿是谁”或百度百科相关姚明介绍,这些网页内容包含“姚明”和“姚沁蕾”及“父女”关系等。而知识图谱中相当于有一张巨大的网,把人物、关系联系起来。如百度知心和搜狗知立方:
& & & & 再如平时我们通过百度或搜狗搜索小说电影电视剧时的应用:
(二).知识图谱的框架
& & & & 通过上面的叙述,我们发现传统的搜索引擎和知识图谱的变化:
& & & & 1.信息抽取目标发生了变化,传统的文本指定抽取(ACE)=&海量数据的发现(KBP);
& & & & 2.从文本分析为核心转变成了知识发现为核心;
& & & & 3.让计算机真正理解用户的查询需求,给出准确答案而不是给出相关的链接序列;
& & & & 目前世界有代表性的知识库或应用系统包括KnowItAll、TextRunner、基于维基百科的DBpedia、YAGO;公司开发的知识搜索或计算平台如谷歌KnowledgeGraph、Facebook推出的实体搜索服务Graph Search、Evi公司TrueKnowledge知识搜索平台。
& & & & 因王元卓等人提出的一种面向网络大数据的、开放的、自适应的、可演化的、可计算的知识计算引擎——OpenKN,其原理类似于知识图谱,故通过该框架图进行简单讲解。
& & & &OpenKN主要由知识库构建(Knowledge base construction)、知识库验证与计算(Knowledge validation and verification, Knowledge computation)、知识存储(Knowledge repositories)、知识服务与应用(Knowledge
services and application)四个模块组成。
& & & & 这些模块实现了一个全生命周期的知识处理,从知识获取、知识融合、知识验证、知识计算、知识存储到知识服务与应用的知识处理工作流程。
& & & & 知识库的构建:
& & & & 包括知识获取和知识融合两方面。知识获取是从开放网页、在线百科和核心词库等数据中抽取概念、实体、属性和关系;只是融合的主要目的是实现知识的时序融合和多数据源融合。在完成知识库构建工作后得到的知识是显式的知识。
& & & & 知识计算:
& & & & 除了显示的知识,通过OpenKN的知识计算功能,包括属性计算、关系计算、实例计算等,我们还可以进一步获得隐式的或推断的知识。
& & & & 知识验证和处理:
& & & & 为了检验显示知识和隐式知识的完备性、相关性和一致性,我们需要对知识进行校验,这成为知识验证过程。主要是专家或特定的知识计算方法检查冗余的、冲突的、矛盾的或不完整的知识。
& & & & 知识存储:
& & & & 经过验证的海量知识,在OpenKN里存储在一个基于图的数据库(Graph DataBase, GDB)及关系数据库中。其中GDB中存储的是显示知识,关系数据库中存储的是隐式知识。与传统的数据库模型Titan相比,GDB通过定义点和边的图数据模型来存储知识,这里的点和边都有各自唯一的ID并且支持一系列的多值属性。GDB描述了一个与现有的图模型不同的异构网络,成为可演化知识网络。
& & & & OpenKN的两个主要特征——自适应和可演化性,即诠释了OpenKN的“Open”含义。
& & & & PS:其中还涉及到很多技术,我的毕业设计就是其中之一:在知识获取过程中多源知识或在线百科的实体对齐、属性对齐和属性值对齐的研究。知识图谱建立后需要考虑知识扩充、知识更新等实时修改也是其中的难点。该篇只是入门介绍,其他有机会再分享。
(三).搜狗知立方
& & & & 这部分内容是我在百度文库中搜索知识图谱找到的,主要是张坤分享的“面向知识图谱的搜索技术”,关于搜狗知立方的,可惜没听到原作者的讲述。但我也分享他的几张图片,一目了然。
& & & & 第一张图 搜索结构发生的变化
& & & & 第二张图 知立方整体架构图
& & & & 知立方数据库构建包括本体构建(各类型实体挖掘、属性名称挖掘、编辑系统)、实例构建(纯文本属性、实体抽取、半结构化数据抽取)、异构数据整合(实体对齐、属性值决策、关系建立)、实体重要度计算、推理完善数据。
& & & & 第三张图 知识库
& & & & 第四张图 实体对齐概念
& & & & 比如张艺谋的国籍需要对齐“中华人民共和国”、“中国(内地)”、“中国”三个值实现属性值对齐,“记过”、“国籍”、“国籍”实现属性对齐;再如出生日期对齐“日”、“”、“”实现属性值对齐。
& & & & 第五张图 属性值决策与关系建立
& & & & 第六张图 推理补充与验证
& & & & &第七张图 基于CFG句法分析
第八张图 后台检索
& & & & 总结:最后还是希望文章对你有所帮助,它主要是关于搜索引擎和知识图谱的一篇入门知识介绍,至少让你明白存在这么个东西,相当于一篇普及知识吧!如果有错误或不足之处,请海涵~
& & & & 参考资料下载地址:&
参考资料如下:
& & & & 1.搜索引擎主要参考张俊林的书籍《这就是搜索引擎》,电子工业出版社
& & & & 2.曲卫华,王群. 搜索引擎原理介绍与分析. 中国地质大学信息工程学院
& & & & 3.佘正平. 搜索引擎原理及存在问题. 图书情报论坛
& & & & 4.张蹇. 传统搜索引擎与智能搜索引擎比较研究. 郑州大学硕士学位论文
& & & & 5.Eastmount.&知识图谱相关会议之观后感分享与学习总结
& & & & 6.王元卓, 贾岩涛, 赵泽亚, 程学旗. OpenKN——网络大数据时代的知识计算引擎. 中科院计算机研究所
& & & & 7.张坤. 面向知识图谱的搜索技术. 百度文库
& & & & (By:Eastmount
晚上8点 &&http://blog.csdn.net/eastmount/)
版权声明:本文为博主原创文章,未经博主允许不得转载。
12345678910
12345678910
12345678910 上一篇:没有了下一篇:文章评论相关解决方案 1234567891011 Copyright & &&版权所有苹果搜索联想词又成ASO风口,展现逻辑到底如何?--百度百家
苹果搜索联想词又成ASO风口,展现逻辑到底如何?
分享到微信朋友圈
搜索联想词以前所未有的曝光度呈现在大家面前,做为iOS推广人员,此刻要的不是站队,而是理性地看待这个“风口”,思考以下几个问题:搜索联想词的展示逻辑?搜索联想词的带量情况?搜索联想词的到底如何操作?
前天有一篇关于搜索联想词分享在圈内激起千层浪,一度引起全民热议,不到一天时间竟有上百位朋友向我咨询操作方式,可见影响之大。文章详实地记录了作者优化MOKA的心得,视角新颖,效果惊人,带给了深陷推广泥沼的CP们不一样的推广之道。第二天上午,好友aso阿哥更是以自己长时间的积累分享了几点搜索联想词的操作方式,内容中肯掷地。下午,圈内也有朋友传来质疑之声,低热度词好操控但没有量,高热度词操作有效果但难度和代价都很大,可能会得不偿失。
不管是质疑还是认同,搜索联想词以前所未有的曝光度呈现在大家面前,已是不争的事实。但做为iOS推广人员,此刻要的不是站队,而是理性地看待这个“风口”,思考以下几个问题:搜索联想词的展示逻辑?搜索联想词的带量情况?搜索联想词的到底如何操作?
一.规则:搜索联想词的展示逻辑
搜索联想词,App Store搜索界面输入某个关键词后自动下拉展示出来的关键词列表。由苹果自动匹配,业内称之为联想词,最多显示10个,在11月之前,排列逻辑是依照联想词热度高低进行排序。11月之后搜索联想词的收录规则有所调整,主要还是依据热度进行排序,另添加核心词与联想词的关联度参考纬度,对于这个关联度高低如何判定,目前没有具体的依据。
二.效果:搜索联想词的带量情况
我们一直在谈搜索联想词,那效果具体如何?在看实际效果之前,我们看看影响效果的因素有那些:联想词类别、组词方式以及联想词的排名。
联想词类别可分为品牌联想词、标题联想词及行为联想词,吸量能力:“行为联想词”“品牌联想词”“标题联想词”。
组词方式可分为“AB”、“BA”、“AA”、“xxxAxxx”等(注:A是核心词,B是长尾词,x是其他词),吸量能力:“AB”“BA”“xxxAxxx”“AA”。
联想词排名。排名越靠前热度越高,越符合用户的搜索习惯,曝光能力越强,流量也越高。
给大家分享一组之前操作的数据,搜索联想词为“密室逃脱”系列,系列搜索联想词做到Top5的位置,带量大概在200左右的水平,具体看图。
三.操作:搜索联想词的到底如何操作?
搜索联想词优化很早就有,只是一直没有受到足够的重视,这块所谓的“处女”领域是被大家忽略还是带量效果不显著?咱们先看看搜索联想词如何操作,稍后再行分析。
操作方法可分为以下三种:
第一种:将已有的搜索联想词排名做到第一位,操作简单,带量较为明显;
第二种:提升搜索联想词的排名,争取更大的曝光和吸量,操作方式在短时间内提升联想词的热度便可搞定,操作也相对简单,但需要的量级较大;
第三种:造搜索联想词。需分三步进行:
第一步预先判定OK的关键词(主要找苹果未收录的词),在标题或者关键词中设置
第二步形成强关联,就是让苹果词库收录这个词,具体操作用不同账号大量频繁地搜索该联想词,让苹果误认为该词是用户需要搜索需求
第三步,刷该词排名至第一位并将该词热度一步步提升。这样你想要的词就被搜索联想了并且排名还不断提升。再补一句,如果是苹果未收录的词,一旦被收录,因为你在设置是满足苹果的搜索要求,一般搜索出来都是第一名,后面要做的就是提升联想词热度了。
现在的大环境是,稍高热度的关键词下拉的搜索联想词都被排满了,想要重新植入自家的难度很大,因为要完成“设置词+收录+提升排名+提升热度”四个个过程,投入甚大。当然也有一些低热度的关键词就不存在这些问题了,因为这些词的下拉词比较少,只要完成两步就行“设置词+收录+提升排名”,核心问题就是收录,难度降了很多。但另一个很现实的问题是低热度核心词吸量很差,根据文公子的经验,5000热度以下的行为词,每天的吸量不到50个,但搜索联想词会有多少量,公子也不能给个明确回复。但如果低联想词依附在高热度核心词下面时,吸量是较为可观的。
四.究竟改不改对搜索联想词予以足够重视
这个命题比较矛盾,传统的操作优化一直在执行中,效果都很不错;但造词优化较为复杂,成本较高。但可以利用苹果的一些规则去造词,例如在标题中植入,可以用符号隔开,这种情况下被关联的概率较高,但这种方式不是100%成功,文公子之前试过很多次,70%的概率都是NG。但通过虚假模拟认为搜索行为的成功率很高,随之而来的是操作的复杂。不管接来如何演变,搜索联想词肯定会变成下一个红海。
本文系作者@文公子 授权发布。
分享到微信朋友圈
在手机阅读、分享本文
还可以输入250个字
推荐文章RECOMMEND
阅读:4778
热门文章HOT NEWS
警方入刑的标准有两个,其一是侵权影视剧的数量达到数百部,其二是...
百度新闻客户端
百度新闻客户端
百度新闻客户端
扫描二维码下载
订阅 "百家" 频道
观看更多百家精彩新闻在百度搜索的时候搜索引擎回不去智能得把iphone同视为苹果,这种技术专业名词叫什么_百度知道

我要回帖

更多关于 云盘资源搜索引擎 的文章

 

随机推荐