添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
我们的优势
Havenask 是阿里巴巴自主研发的大规模分布式搜索引擎,其核心能力广泛应用于阿里巴巴和蚂蚁集团内众多业务,如淘宝搜索和推荐、蚂蚁人脸支付、优酷视频搜索、阿里妈妈广告检索等。
内置功能完备、性能优异的向量检索能力
个位数毫秒级查询性能,同时有更高的稳定性保障
支持单应用实例千亿+级别数据,大数据检索场景有较大优势
百万+TPS高时效性写入保障,单元化容灾
演进历程
Havenask在阿里集团内部有着10多年的发展历史,通过性能和稳定性的成绩在集团内遍地开花,丰富的定制化能力,支撑了集团内所有核心的搜索业务场景,累积了很多针对搜索场景的功能及性能优化经验。 1、1999年~2008年起源于雅虎搜索技术(YST、Vespa)的单机版搜索引擎,支持淘宝、B2B等子公司搜索业务。 2、2009年~2011年完成自研搜索引擎HA3(Havenask)研发,开启自研大规模分布式高性能搜索引擎时代。 3、2013年Havenask支持阿里巴巴集团几乎所有搜索业务,统一代码分支,以产品化方式规模化支持集团大量搜索业务。 4、2018年深度学习技术广泛应用,Havenask继续演进,除了提供传统的倒排索引能力外,还提供KV、KKV、向量索引,支持深度模型和在线预测,提供插件定制、自研CAVA语言支持业务扩展等能力,成为阿里搜推广场景的核心AI智能引擎。
整体架构
一个较为完整的搜索服务由:在线部分、离线部分、管控部分、插件部分 构成,其中包括了查询流、数据流、控制流。
在线部分
Qrs:接收用户查询、查询分发、收集整合结果 Searcher:搜索查询的执行者,倒排索引召回、统计、条件过滤、文档打分、排序、摘要生成等
离线部分
索引数据生成的过程 文档处理与索引构建服务Build Service 索引构建分为三个步骤,对数据分别进行分词改写、产出索引、合并索引文件的处理
管控部分
强大的运维管控能力
插件部分
提供插件机制,离线和在线流程各环节中,用均可以通过开发插件,对原始文档、查询Query、召回、算分、排序、摘要进行灵活修改