如何通过OpenSearch快速搭建图像搜索服务 - 智能开放搜索 OpenSearch

本文将介绍企业在没有向量数据的情况下，如何通过 Ope nSearch向量检索版，快速搭建图像搜索服务。

用户可以直接导入图片源数据，在OpenSearch内部便捷完成图片向量化、向量搜索等步骤，实现以图搜图、以文搜图等多种图像检索能力。

方案架构

image_409b3ae0cc76

用户可以通过3种不同的方式上传图片进行图搜引擎的搭建 ：

OSS+MaxCompute+OpenSearch向量检索版：用户先将图片上传至OSS中，在MaxCompute中存储业务表数据以及每条数据对应的图片地址（OSS里的路径，比如/image/1.jpg）
MaxCompute+OpenSearch向量检索版：用户将图片通过base64编码后的图片及其表数据存储在MaxCompute中
API+OpenSearch向量检索版：用户通过OpenSearch向量检索版给出的数据推送接口，将base64编码后的图片及其表数据推送到OpenSearch向量检索版实例中

本文演示的是OSS+MaxCompute+OpenSearch向量检索版搭建图搜引擎。

环境准备

1、创建AK和SK

第一次开通阿里云账号并登录控制台时，会提示先创建access key才能继续使用。

创建及使用应用依赖access key参数，主账号下access key参数不能为空。
在为主账号创建access key参数后，还可以再创建RAM子账号access key通过RAM子账号进行访问，RAM子账号赋予对应访问权限，请参考 RAM（子账号）的创建及授权。

2、创建对象存储OSS

image_409ce896ccx9

本文在OSS中上传了1000张图片：

image_409d36b4ccr4

部分图片类型如下：

image_409d84d0cc9c

购买OpenSearch向量检索版实例

进入 OpenSearch控制台，在左上角切换到 OpenSearch-向量检索版 ：

image_409dfa00cc4q

进入向量检索版控制台后，在实例管理界面，点击 创建实例 ：

image_409e2114cc9c

商品版本选择 向量检索版 ，选择地区，配置“ 查询节点个数 ”、“ 查询节点规格 ”、“ 数据节点数量 ”、“ 数据节点规格 ”、“ 单数据节点总存储空间 ”，设置“ 专有网络 ”和“ 虚拟交换机 ”，最后按提示要求设置用户名和用户密码（用于查询时校验权限，非阿里云账号密码），点击“ 立即购买 ”：

image_409e6f32ccq2

{
  "vector_model": "clip",
  "vector_modal": "image",
  "vector_source_field": "vector_source_image"
}

"fields": [
      "field_name": "id",
      "field_type": "INT64",
      "compress_type": "equal"
      "user_defined_param": {
        "content_type": "oss",
        "oss_endpoint": "",
        "oss_bucket": "OSS的Bucket名称",
        "oss_secret": "可以访问OSS的账号SK",
        "oss_access_key": "可以访问OSS的账号AK"
      "field_name": "vector_source_image",
      "field_type": "STRING",
      "compress_type": "uniq"
      "field_name": "cate_id",
      "field_type": "INT64",
      "compress_type": "equal"
      "user_defined_param": {
        "vector_model": "clip",
        "vector_modal": "image",
        "vector_source_field": "vector_source_image"
      "field_name": "vector",
      "field_type": "FLOAT",
      "multi_value": true
  ]

{
  "vector_model": "clip",
  "vector_modal": "image",
  "vector_source_field": "vector_source_image"
}

 "fields": [
      "field_name": "id",
      "field_type": "INT64",
      "compress_type": "equal"
      "field_name": "vector_source_image",
      "field_type": "STRING",
      "compress_type": "uniq"
      "field_name": "cate_id",
      "field_type": "INT64",
      "compress_type": "equal"
      "user_defined_param": {
        "vector_model": "clip",
        "vector_modal": "image",
        "vector_source_field": "vector_source_image"
      "field_name": "vector",
      "field_type": "FLOAT",
      "multi_value": true
  ]

"indexs": [
      "index_name": "id",
      "index_type": "PRIMARYKEY64",
      "index_fields": "id",
      "has_primary_key_attribute": true,
      "is_primary_key_sorted": false
      "index_name": "vector",
      "index_type": "CUSTOMIZED",
      "index_fields": [
          "field_name": "id",
          "boost": 1
          "field_name": "vector",
          "boost": 1
      "parameters": {
        "dimension": "512",
        "distance_type": "SquaredEuclidean",
        "vector_index_type": "Qc",
        "build_index_params": "{\"proxima.qc.builder.quantizer_class\":\"Int8QuantizerConverter\",\"proxima.qc.builder.quantize_by_centroid\":true,\"proxima.qc.builder.optimizer_class\":\"BruteForceBuilder\",\"proxima.qc.builder.thread_count\":10,\"proxima.qc.builder.optimizer_params\":{\"proxima.linear.builder.column_major_order\":true},\"proxima.qc.builder.store_original_features\":false,\"proxima.qc.builder.train_sample_count\":3000000,\"proxima.qc.builder.train_sample_ratio\":0.5}",
        "search_index_params": "{\"proxima.qc.searcher.scan_ratio\":0.01}",
        "embedding_delimiter": ",",
        "major_order": "col",
        "linear_build_threshold": "5000",
        "min_scan_doc_cnt": "20000",
        "enable_recall_report": "false",
        "is_embedding_saved": "false",
        "enable_rt_build": "false",
        "builder_name": "QcBuilder",
        "searcher_name": "QcSearcher"
      "indexer": "aitheta2_indexer"
  ]

query=image_index:'编码后的需要搜索的文本内容&modal=text&n=10&search_params={}'

vector:'5pGp5omY6L2mJuWktOeblA==&modal=text&n=10&search_params={}'&&kvpairs=formula:proxima_score(vector)&&sort=+RANK

vector:'base64编码后的图片&modal=image&n=10&search_params={}'&&kvpairs=formula:proxima_score(vector)&&sort=+RANK

pip install alibabacloud-ha3engine

# -*- coding: utf-8 -*-
from alibabacloud_ha3engine import models, client
from alibabacloud_tea_util import models as util_models
from Tea.exceptions import TeaException, RetryError
def search():
    Config = models.Config(
        endpoint="参考实例详情页>API入口下的API域名",
        instance_id="",
        protocol="http",
        access_user_name="购买实例时设置的用户名",
        access_pass_word="购买实例时设置的密码"
    # 如用户请求时间较长. 可通过此配置增加请求等待时间. 单位 ms
    # 此参数可在 search_with_options 方法中使用
    runtime = util_models.RuntimeOptions(
        connect_timeout=5000,
        read_timeout=10000,
        autoretry=False,
        ignore_ssl=False,
        max_idle_conns=50
    # 初始化 Ha3Engine Client
    ha3EngineClient = client.Client(Config)
    optionsHeaders = {}
        # 示例1: 直接使用 ha 查询串进行搜索.
        # =====================================================
        query_str = "config=hit:4,format:json,fetch_summary_type:pk,qrs_chain:search&&query=image_index:'需要搜索的文本内容&modal=text&n=10&search_params={}'&&cluster=general"
        haSearchQuery = models.SearchQuery(query=query_str)
        haSearchRequestModel = models.SearchRequestModel(optionsHeaders, haSearchQuery)
        hastrSearchResponseModel = ha3EngineClient.search(haSearchRequestModel)
        print(hastrSearchResponseModel)
    except TeaException as e:
        print(f"send request with TeaException : {e}")
    except RetryError as e:
        print(f"send request with Connection Exception  : {e}")

方案架构

环境准备

1、创建AK和SK

2、创建对象存储OSS

购买OpenSearch向量检索版实例

配置集群

1、配置数据源

2、配置索引结构

图片存储于OSS

base64编码的图片

3、索引重建

效果测试

语法介绍

以文搜图

以图搜图

SDK中检索数据

注意事项