向量数据类型

Vector Data Type: AI 理解世界的数学语言

01 / CONCEPT

核心概念:万物皆可向量

在 AI 的世界里,计算机并不直接“读”文字或“看”图像。相反,它通过一种名为“向量 (Vector)”的数学形式来理解一切。

通俗类比:

想象一个巨大的“词汇语义地图”。在这个地图上,每个词都有一个精确的坐标。例如,“猫”和“狗”因为都是宠物,它们的坐标会非常接近;而“猫”和“手机”的距离则会非常遥远。这种将非结构化数据(文本、图像、声音)转换为一列数字(坐标)的过程,就是向量化。

向量的本质就是一列数值列表(如 [0.12, -0.5, 0.88...])。它的核心作用是通过数学空间中的位置和距离,来表示和比较数据的含义。如果两个向量在空间中靠得近,就意味着它们在语义或特征上高度相似。

02 / FEATURES

关键特性:高维空间的投影

向量不仅仅是数字,它们是高维空间中的点。虽然我们难以想象成千上万维的空间,但我们可以通过 3D 投影来直观理解其逻辑:

维度 X 维度 Y 维度 Z 高维空间的投影 (3D 示意) 点 A (猫) 点 B (狗) 距离近 ≈ 语义相似 点 C (手机) 距离远 ≈ 语义差异大

1. 多维空间:AI 模型通常使用数百甚至数千维的向量,每个维度代表一个抽象特征。

2. 向量点:空间中的每个点 A、B、C 代表一个具体数据的“数字指纹”。

3. 距离度量:通过计算欧氏距离或余弦相似度,机器可以瞬间判断两份数据是否相关。

03 / WORKFLOW

生成与应用:从原始数据到智能决策

向量化不是魔法,而是一个严谨的数学转换流程。以下是数据如何变成向量并被利用的过程:

1. 输入源 📄 文本 🖼️ 图像 🎵 音频 嵌入模型 (Embedding Model) 向量化 (嵌入) 3. 数值向量 [ 0.23, -0.45, 0.87, ... ] [ 0.11, 0.92, -0.31, ... ] 下游任务: 搜索 • 推荐 • 聚类 • 分类

1. 输入:原始数据进入系统。

2. 嵌入模型:深度学习模型(如 BERT, CLIP)充当“翻译官”,将语义提取为数值。

3. 输出:生成的向量数组存储在向量数据库中,支持秒级的相似性检索和复杂推理。

04 / DISTANCE

距离计算:向量相似度的度量方法

向量之间的“距离”是 AI 判断两个数据是否相似的核心指标。不同的距离计算方法适用于不同场景:

余弦相似度 (Cosine Similarity)

测量两个向量的方向多么一致,不关心向量的“长度”。

范围:-1 到 1(数值越接近 1,越相似)

适用场景:文本语义相似度、文档搜索、推荐系统

欧氏距离 (Euclidean Distance)

测量两个向量在空间中的直线距离,即两点之间的正常距离。

范围:≥0(数值越小,越相似)

适用场景:图像特征匹配、聚类分析、K近邻算法

点积 / 内积 (Dot Product)

带方向和大小的相似度测量,也能反映向量的重要性

范围:无界限(数值越大,越相关)

适用场景:加权检索、带权重的相似度排序

曼哈顿距离 (Manhattan Distance)

沿着坐标轴计算的距离总和,类似城市街区的出租车距离

范围:≥0(数值越小,越相似)

适用场景:稀疏向量、特征差异分析

选择建议:大多数 NLP 和语义搜索场景使用余弦相似度,因为它对向量的大小不敏感,更专注于方向(语义)的一致性。

05 / MODELS

嵌入模型:将世界翻译为向量的翻译官

嵌入模型(Embedding Model)是将原始数据转化为向量的核心组件。不同的模型适用于不同的数据类型和业务场景:

模型名称 类型 维度 特点与适用场景
OpenAI text-embedding-3 文本 256-3072 高质量语义嵌入,支持多语言,适合 RAG 和语义搜索
BERT / Sentence-BERT 文本 768 开源可部署,句子级语义理解,适合离线场景
CLIP 多模态 512/768 图像+文本联合嵌入,支持跨模态搜索和图像理解
BGE (BAAI) 文本 768/1024 中文文本优化,开源可商用,性能优秀
Cohere Embed 文本 1024 企业级嵌入服务,支持语义压缩和重排序
Whisper Encoder 音频 512/1280 语音特征提取,可用于语音搜索和分类

维度选择:更高维度通常带来更丰富的语义信息,但也需要更多存储和计算资源。根据业务需求平衡精度与性能

06 / DATABASE

向量数据库:存储与检索的专属引擎

传统数据库使用索引进行精确匹配,而向量数据库专门为相似性搜索设计,能够在数十亿级别的向量中实现毫秒级检索。

数据库 类型 特点
Pinecone 云服务 全托管、弹性扩展、企业级可用性
Milvus 开源 高性能、支持十亿级向量、云原生架构
Weaviate 开源 内置向量化模块、GraphQL API、混合搜索
Qdrant 开源 Rust 开发、极低延迟、支持过滤筛选
Chroma 开源 轻量级、AI 应用优化、零配置启动
pgvector 扩展 PostgreSQL 扩展、无需额外服务、混合查询

核心技术:向量数据库使用 ANN(近似最近邻)算法(如 HNSW、IVF),在牛性精确度与检索速度间实现最佳平衡。

07 / APPLICATIONS

应用场景:向量技术的落地实践

向量技术已经渗透到 AI 应用的方方面面,以下是典型的应用场景:

RAG 检索增强生成

将知识库内容向量化存储,当用户提问时检索相关片段,让 LLM 基于实时上下文生成回答。

语义搜索

超越关键词匹配,理解用户查询的真实意图。搜索“如何缓解压力”也能找到“冥想指南”。

个性化推荐

将用户偏好和内容特征向量化,通过相似度计算推荐最匹配的商品、文章或视频。

图像搜图

上传图片查找相似图像,应用于电商产品搜索、版权检测、视觉内容管理。

异常检测

将正常行为向量化建立基线,当新数据与基线向量距离过大时,识别为异常。

问答机器人

将常见问题和答案向量化,用户提问时快速匹配最相关的答案,提升客服效率。

08 / SUMMARY

核心价值:AI 理解世界的基石

向量将人类可理解的语义与特征,转化为机器可运算的数学形式
它是 AI 实现理解、推理和内容生成的底层逻辑与基石