实体搜索引擎
本条目属于网路搜索引擎系列 |
网路搜索引擎 |
元搜索引擎 |
国际性搜索引擎(多语言) |
Yahoo! Search |
Bing |
仅中文搜索引擎 |
百度 |
360搜索 |
搜狗 |
yam蕃薯藤 |
其他搜索引擎 |
DuckDuckGo |
Ecosia |
Exalead |
Naver |
Yandex |
Alexa Internet |
AOL |
Ask.com |
Qwant |
其他链接 |
实体搜寻引擎(Physical search engine)或者称为线下搜寻引擎(Off-line search engine),也称为物联网搜寻引擎(IoT search engine),实体搜索是一种对应线下实体资讯的检索系统,也是应用全球资讯网进行搜寻的机制, 搜寻结果类似网络搜索引擎,以条列方式展示结果,亦称为搜索结果页 (Search engine results page,SERP) ,实体搜寻引擎以搜寻者指定的方位为中心显示结果,将其搜索得到的资讯做距离排序,排序距离的规则由近到远,若资讯是同一距离时,则会加入SEO与服务状态等因素做排序,这一点不同于网络搜索引擎仅以SEO排序,其显示的资讯的连结同样可以连结至网页、影片、或其他开放的服务资讯。搜寻引擎的搜索资料技术,使用自动化资讯汇整方式达成,一般做法以网路爬虫 (web crawler)运行演算法得出资讯。实体搜寻引擎对应实体世界实现各类资讯的搜索入口,搜寻机制与互联网搜寻引擎相似,各类线下服务只需提供Web页面,不需要额外制作线下搜寻App (例如 Uber、 Lyft、Foodpanda, ...等Apps); 实体世界的服务与资讯搜索, 不论是定点的资讯, 或是移动的资讯,经由关键字搜索便可达到实时搜寻的目的。
发展历史
[编辑]1990年Montreal大学学生发明了Archie,这是追溯网路搜寻的最早发展概念,当时全球资讯网还没有出现,他们整理了FTP站点上所有档的目录列表,创建了一个可对档案名称进行搜索的资料库,因此Archie被称为搜寻引擎的始祖。
1993年Matthew Gray开发了Wanderer[1],Wanderer的技术是第一个Spider Robot,并在Web上搜索索引页面目录的技术,而后Jonathon Fletcher创建了JumpStation系统[2],它是世界上第一个具备 抓取、索引和搜索集于一体的搜寻引擎,接著搜寻引擎的另一个重大发展为网路爬虫(WebCrawler),1994年搜寻引擎开始导入网站全文索引概念,它支援用户搜索任一网页中的任一个搜索词,而不是仅对网页标题进行索引。
1994年,Carnegie Mellon 大学Michael Mauldin[3]博士成立Lycos,开发以页面网址追踪的Robot技术,Infoseek也是同时期的一个重要代表,他们是搜寻引擎史上一个重要的进步。接著, Netherlands软体工程师 Martijin Koster, 提出Robots Exclusion Standard[4]的 R E S概念,通过 robots.txt 抓取网址页面,网路资讯自动化搜索自此得到完整的发展架构。
1995年12月AltaVista推出自然语言搜寻的搜寻引擎,具备了基于网页内容分析,智慧型处理的能力,第一个实现高级搜寻语法(例如:AND、OR、NOT等)。同时期还有inktomi、HotBot等搜寻引擎的竞争者。
1996年Larry Page和Sergey Brin[5],为了解决搜寻结果的客观排序问题,建立一个大量连结的资料库,藉以找出每个网页的连结会通向什么网站, 因而决定网站以连结数量排名的“PageRank”机制。1998年10月,Google诞生,它成为了目前世界上最流行的搜寻引擎。
1999年Auto-ID公司Kevin Ashton应用物品编码RFID技术,最早提出了“物联网”的概念,而后在2005年国际电信联盟(ITU)发布的报告中,将物联网的覆盖范围延伸拓展,目标在实现人类社会与物理系统的整合,物联网与物理系统开始有了对应概念。
2004年Glasgow大学提出最早的实体搜寻引擎技术概念, 开发开源搜索引擎技术Terrier[6],利用RFID以及联网装置对应实体方位的做法, 实现实体物件的搜寻方法, 并期望在2014年实现实体世界的搜寻应用, 但最终此构想没有如期完成。Snoogle[7]以及St. Joseph Engineering College[8], 也有类似的架构提出实体搜寻引擎技术。
2005年2月在Google部落格上首次公布Google地图,它实现了云端资讯对应线下实体资讯的搜索的系统。Google地图的服务资讯没有应用网路爬虫进行云端资讯整合,其资讯来源为Open data,以及用户自行上架的资料,它虽然不是典型的搜寻引擎,但其应用则开启线下资讯搜寻的开端。Google地图目前在全球多国开通了“街景”(Street View)服务,使用者可以通过由Google金龟车在街道上拍到的影像检视街景。2011年10月7日,Google地图新增了3D鸟瞰功能。
2008年Apple发展并建立AppStore服务机制,行动服务市场的开始爆发,智慧型手机以App做为核心的应用,引爆了移动“互联网”概念,并开启了“物联网”时代,服务型态开始著重在用户与实体资讯关系,早期的车队的管理架构,应用App开始走向开放服务市场,发展至今线下普遍以App做为线下搜寻应用例如,Uber、Lyft、Foodpanda等。
2011年7月浙江大学[9]提出以URL结合定点方位, 对应实体物件的Web资讯, 实现实体搜寻引擎方法与架构, 以及2011年12月InTimeGo[10]提出Web资讯结合定点与移动方位的方法,开启物联网(IoT)与 Web 融合的概念,这个使用情境称之为 Web of Things (WoT)。Web世界的URL可以说是链接的基础,每个物件都可利用特定URL来对应其特有资讯与方位,WoT 概念之所以重要,在于开始有了 Web 实体化的应用概念, 过去 Web 只是物品云端上的资讯,WoT 让Web资讯开始对应到真正的实体方位。2016年Google应用此概念, 发表类似iBeacon读取近端实体资讯的方法, 命名为“The Physical Web”计画, Google对于“The Physical Web”发展构想, 希望进而实现近端实体搜寻的机制[11]。
2011年10月武汉大学首先发表实体搜索爬虫和资讯抽取研究方法[12],开启了自动化资讯汇整的实体搜寻引擎创新思维, 但网路爬虫汇整的实体资讯,除了实体位置还包含各类服务的状态资讯, 如何制定涵盖广泛的服务应用规范与定义, 最终为实体搜寻引擎的资讯整合能力的指标, 对此微软公司[13]以及中国大陆的电子科技大学[14]、东南大学[15]等, 也陆续提出相关的应用规范与定义。
2014年11月Amazon Alexa与Amazon智慧型喇叭Echo一同发布。其概念源自于Apple的语音应用, 借由Siri语音呼求,为实现线下服务搜寻整合入口,并达到物联网装置互联的机制,Amazon Alexa提供一种与App应用服务串接的方法,名为 Alexa Skills Kit (ASK) 的开发包,它是一种开放式的串接介面,实际上是把物联网相关业者的服务汇整在一起,利用语音呼求的方式,达成在地化的服务搜寻机制,不过这样的服务串接方案所费不赀,Amazon推出1亿美元的Alexa Fund,以鼓励开发者参与Alexa语音技能的开发,Amazon从创新性、消费者关联度、与 ASK 的关联度等角度衡量开发者专案,一旦通过就会提供一笔资金回馈业者。Amazon Alexa虽然并非典型的搜索引擎,但对于线下移动服务搜寻方式,则为第一个实现线下服务搜寻整合入口的架构,其后Google、Microsoft、百度、阿里巴巴、腾讯、京东等后进者,也纷纷推出类似架构的线下服务搜寻整合入口。
2017年9月创新工场李开复首先发表了一个新的商业模式: OMO(Online-Merge-Offline)线上线下虚实融合模式[16],OMO 是O2O营销模式的巨大演进,且预测在10年内完成线上线下一体化,汽车、商店、商场、诊所和学校等现实世界的场景和行为即时资料化,自此,资料世界和实体世界将完全整合,线上线下的界限消失,将让互联网对实体行业的渗透率提升至100%。李开复认为,未来OMO的新商业浪潮将推动,未来发展线上线下融合的新零售、实体世界的资料化以及实体搜寻等领域,再加上AI技术的辅助,将会缔造巨大的蓝海商机与愿景[17]。OMO驱动潮流之下, 互联网下一个焦点将朝向新零售服务、线下服务搜寻以及线下大数据发展,也为实体搜寻入口的发展铺陈一个全新愿景。
2019年8月大千搜寻提出定点或移动位置数据的整合规范[18],发布首个自动化资讯汇整的实体搜寻引擎[19],其构想的方法源于大千搜寻创办人黄柏尧,首先定义“互联网”与“物联网”服务模型之差异[20],以厘清“互联网”与“物联网”相互之间的混淆概念,应用其“物联网服务模型”整合实体各类服务资讯与方位,延伸云端搜寻引擎的技术运作机制,以Web资讯结合Location成为Location Web,实现服务资讯的OMO (Online-Merge-Offline)虚实融合效益,并借由网路爬虫自动汇整线下的人/车/物资讯,成就一站式的线下资讯搜寻入口。
2019年10月Gabriel Rene提出“The Spatial Web”概念[21],Spatial Web是一种场域空间虚实融合的技术,每个场域空间可以独立建构应用,如果要构成实体世界的连续性视角,将面临不同场域空间的衔接问题,不过基于Web3.0驱动Spatial Web开放系统, 可以为未来场景统合与衔接的发展铺路。对于实体搜寻引擎应用发展而言,应用Location Web概念,可以解决不同应用服务领域资讯统合问题,而Spatial Web可以将Location Web的资讯呈现方式, 扩展成为对应三维空间的形相与方位。
2020年物联网领域知名顾问公司SRI Consulting描绘之物联网技术路线,综合物联网发展的型态与目标, 归纳物联网依据时间轴发展, 可分为四个阶段分别为:供应链辅助、垂直市场应用、无所不在的定址(Ubiquitous positioning),最后可以达到“The Physical Web”,意即让物联网上的每一个智慧型装置都以URL来标示[22],呼应实体世界的每个物件都可利用特定URL来对应其特有资讯与方位,据此发展趋势,实体搜寻引擎将更易于获取实体资讯。
技术与服务差异
[编辑]搜寻引擎之服务功能差异
[编辑]实体搜寻引擎承袭了网路搜寻引擎的主要技术架构, 但为了区别搜寻引擎服务功能的世代差异, 以下将之分别称为“互联网”搜寻引擎与“物联网”搜寻引擎。 “互联网”与“物联网”的差异在于,互联网仅将资讯引导至线上,物联网则是将资讯达成线下线上融合,物联网其实就是线下线上虚实融合的发展趋势, 这也相应于创新工场李开复先生所提的OMO (Online-Merge-Offline)服务模式 。物联网与实体世界服务型态其实完全一致, 物联网的发展目标, 则是在线上创造一个对应线下实体的世界, 目的在解决人类因地域的资讯限制, 可以借由线下实体搜寻与大数据服务, 提升周遭资讯的服务效能, 藉以创造更加“直接”“即时”“便利”的生活方式。
实体搜寻引擎具备之特点
[编辑]线下线上虚实融合的搜寻应用, 目前有了Google 地图, 为何还是需要发展物联网搜寻引擎呢? 其实这个症结在于Google地图并非搜寻引擎, 最终发展的潜力将不及搜寻引擎 , 如同2000年以前Yellow Page与搜寻引擎的竞争, 最终Yellow Page资料总量不敌搜寻引擎的量级而退场。搜寻引擎可以创造资料总量的优势, 至少需具备以下三个特点:
- 搜寻引擎资料来自不同的系统: 资料来自不同的系统, 也就是来自不同的伺服器, 如此可以跨应用跨服务整合, 也进而达成搜寻线下万物的搜寻入口 , 届时也不需要额外制作线下搜寻App, 例如 Uber, Foodpanda这类App, 可以直接经由物联网搜寻引擎, 便可搜寻线下所有服务。
- Spider Robot资讯收集机制: 创建Robot机制的目的在于, 自动汇集全球资讯 ,比起资料来源于自家建立, 或者自家会员提案, 拥有更为巨大的量级潜力。
- 优异准确率的搜寻能力: 搜寻产出的结果关联于Ranking演算技术, “互联网”与“物联网”有其差异, 所以相互间无法直接套用, “物联网”需要考量服务距离, 服务状态等因素, 加入索引与排序的演算机制, 需要重新优化之后, 才能实现满意的搜寻结果。
而Google 地图搜寻方式, 依据标题与分类的关键字等因素得出结果, 搜寻演算尚属直觉简单, 估计仍在发展阶段, 然而最关键的因素在于, Google 地图没有符合前两个特点的任一项 , 如同Yellow Page搜寻机制, 最终将成为物联网时代的过渡性搜寻应用。
Web发展的必要性
[编辑]综观现阶段线下实体搜寻方式,普遍以App做为线下搜寻应用 (例如,Uber、Foodpanda等) ,事实上App应用架构难以实现跨应用跨服务的整合入口。行动装置发展初期,因为硬体效能不足的因素,App相比于Web拥有较佳的效能表现,所以PC或行动装置发展初期, 都是优先发展App应用, 回顾PC的发展史,一开始便先发展App应用, 然后慢慢过渡到Web应用,例如过往在PC玩游戏, 或查阅字典, 过往都需要安装App,现在的PC已甚少安装App的面向来看,行动装置应不难推测将历经相同的发展过程。目前主流App设计采用的是资料串接方式,实际上这是一种封闭架构,难以如同开放性的Web具备跨应用跨服务的资讯整合特性,加之用户端实际上安装App数目有限,大部分Apps在用户端没有市场,根据Adjust近年App应用的统计数据得知,前十排名的App便占据八成五以上流量,并且高达九成以上的僵尸App [23],这已形成非常严重的软体资源浪费,App应用架构若没有相应方案改善, 不仅不利于发展资讯共用的任何服务,也不利于发展跨应用的线下服务整合入口,故驱使W3C (World Wide Web Consortium)开始著眼定义物联网 (Internet of Things)前瞻的应用规范,以Web 或Web of Things [24] (WoT)方式推动线下服务应用。
参考资料
[编辑]- ^ 1993-06, Matthew Gray Develops the World Wide Web Wanderer.. [2021-02-22]. (原始内容存档于2020-08-07).
- ^ 2013-09-03, Jonathon Fletcher: forgotten father of the search engine. [2021-02-22]. (原始内容存档于2021-02-28).
- ^ 2021-02-21, Lycos founder Mauldin returns to company after 17 years. [2021-02-22]. (原始内容存档于2018-03-03).
- ^ 2013-12-15, What is the Robots Exclusion Standard?. [2021-02-22]. (原始内容存档于2020-10-01).
- ^ 2019-06, Larry Page and Sergey Brin
- ^ 2012-06-14, Search Engine Queries Physical World In Real Time. [2021-03-06]. (原始内容存档于2021-01-19).
- ^ 2004-12, Snoogle: A Search Engine for the Physical World
- ^ 2017-06, Search Buddy: A Search Engine for Physical Objects. [2021-03-06]. (原始内容存档于2019-10-02).
- ^ 2011-07, What-you-retrieve-is-what-you-see: a preliminary cyber-physical search engine (PDF). [2021-03-23]. (原始内容存档 (PDF)于2020-01-25).
- ^ 2011-12-21, 物件搜尋服務引擎及移動資訊管理系統架構 (PDF). [2021-03-23]. (原始内容存档 (PDF)于2021-01-09).
- ^ 2016-02-19, With The Physical Web, You Become The Search Engine. [2021-03-23]. (原始内容存档于2021-01-27).
- ^ 2011-10, 实体搜索爬虫和资讯抽取研究方法[失效链接]
- ^ 2012-12, 基于实体的搜索和解析
- ^ 2014-10, 基于Web的实体资讯提取和搜索研究[失效链接]
- ^ 2015-01, 一个面向语义 Web的实体探索系统
- ^ 2017-12-12, 李开复畅谈OMO时代的出行
- ^ 2017-11-30, BAT之后下一个超级公司会从OMO领域中产生
- ^ 2019-12-09, 线下服务应用与HTML规范发展[失效链接]
- ^ 2019-11-20, 線上線下萬物聯網 「大千搜尋」首創實體搜尋引擎服務. [2021-02-22]. (原始内容存档于2021-01-08).
- ^ 2020-04-21, 解析物聯網的真實商機與發展方向. [2021-04-10]. (原始内容存档于2021-01-09).
- ^ 2020-10-02, An Introduction to The Spatial Web. [2021-04-12]. (原始内容存档于2021-07-05).
- ^ 2020-08-13, APPENDIX F: THE INTERNET OF THINGS (BACKGROUND). [2021-04-10]. (原始内容存档于2021-04-10).
- ^ 2016-09-05, Statista: 90% Of All iOS Apps Are Zombies. [2021-02-22]. (原始内容存档于2021-01-09).
- ^ 2021-02, WEB OF THINGS AT W3C. [2021-02-22]. (原始内容存档于2021-03-09).