向量数据库检索优化工程师考试试卷及答案_第1页
向量数据库检索优化工程师考试试卷及答案_第2页
向量数据库检索优化工程师考试试卷及答案_第3页
向量数据库检索优化工程师考试试卷及答案_第4页
向量数据库检索优化工程师考试试卷及答案_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

向量数据库检索优化工程师考试试卷及答案一、填空题(共10题,每题1分)1.向量数据库中,常用的相似度度量之一是______距离,公式为√Σ(ai-bi)²。2.向量数据库核心功能是实现______检索,即查找与查询向量最相似的集合。3.支持高效近似检索的常见索引结构是______(HNSW)。4.将向量分拆为子向量分别量化的方法是______量化(PQ)。5.向量与传统数据库结合时,用______过滤缩小范围后再做向量匹配。6.召回率=检索到的相关向量数/______。7.向量L2归一化后,______相似度等价于点积。8.开源向量数据库包括Milvus、Chroma、______(写1个即可)。9.批量插入向量性能比______插入更高。10.向量检索“冷启动”指______时效果差的情况。二、单项选择题(共10题,每题2分)1.归一化后与余弦相似度等价的是?A.欧氏距离B.点积C.曼哈顿距离D.切比雪夫距离2.与向量索引构建时间无关的是?A.向量维度B.向量数量C.元数据字段数D.索引类型3.高召回、低延迟要求不苛刻时优先选?A.HNSWB.IVFC.AnnoyD.线性扫描4.向量量化(如PQ)会导致?A.存储减少B.精度完全丢失C.无法更新D.延迟暴增5.不属于向量数据库应用场景的是?A.商品推荐B.图像检索C.关系型查询D.语义搜索6.向量L2归一化的主要作用是?A.减少维度B.提高相似度一致性C.增加存储D.降低精度7.支持实时向量更新的索引是?A.HNSWB.静态IVFC.Flat索引D.无索引8.召回率与准确率的关系通常是?A.正相关B.负相关C.无关系D.取决于数据9.元数据过滤的优先级是?A.先过滤后向量匹配B.先匹配后过滤C.同时D.随机10.精度损失最小的量化类型是?A.SQB.PQC.RQD.无量化三、多项选择题(共10题,每题2分)1.属于向量数据库的是?A.PineconeB.MilvusC.MySQLD.Weaviate2.常用相似度度量包括?A.余弦相似度B.欧氏距离C.点积D.曼哈顿距离3.向量索引优化方法有?A.量化B.降维(PCA)C.元数据过滤D.增加维度4.向量数据库应用场景包括?A.个性化推荐B.智能问答C.图像搜索D.日志分析5.向量量化类型包括?A.SQB.PQC.RQD.布尔量化6.影响检索性能的因素有?A.向量维度B.索引类型C.查询数量D.硬件7.索引更新触发条件包括?A.向量插入B.删除C.修改D.元数据更新8.召回率计算需要的量是?A.检索到的相关数B.总相关数C.检索到的总数D.总向量数9.向量存储要求包括?A.低延迟B.高压缩C.批量操作D.无索引10.属于ANN算法的是?A.HNSWB.IVFC.AnnoyD.线性扫描四、判断题(共10题,每题2分)1.向量数据库只能存向量,不能存元数据。(×)2.欧氏距离越小,向量越相似。(√)3.PQ量化会减少存储占用。(√)4.余弦相似度范围是[-1,1]。(√)5.归一化后点积等价于余弦相似度。(√)6.召回率越高,检索性能越好。(×)7.元数据过滤必须在向量匹配后。(×)8.批量插入比单条插入效率高。(√)9.降维会降低检索延迟。(√)10.向量数据库无需结合传统数据库。(×)五、简答题(共4题,每题5分)1.简述向量相似度度量的常用类型及适用场景答案:常用3类:①欧氏距离,衡量空间直线距离,适用于图像特征、数值向量;②余弦相似度,衡量向量夹角,对长度不敏感,适用于文本嵌入、语义向量;③点积,等价于归一化余弦,计算高效,适用于批量匹配。选择需结合向量类型(语义用余弦,数值用欧氏)及效率需求。2.向量量化(PQ)的核心原理及优势答案:原理:将高维向量拆为低维子向量,每个子向量量化为固定编码(如8bit),存储编码代替原始向量。优势:①大幅减少存储(如128维向量从1KB降为128bit);②提升检索速度(编码易加载计算);③平衡精度与性能。不足是少量精度损失,多数场景可接受。3.如何平衡召回率与查询性能?答案:①选合适索引:高召回选HNSW,高速度选IVF;②调索引参数:如HNSW的efSearch、IVF的nlist;③元数据预过滤:先筛无关向量再检索;④量化/降维:用PQ或PCA,精度可接受时提速度;⑤缓存热点查询。需按业务(如推荐重速度,检索重召回)调整。4.元数据过滤的作用及实现方式答案:作用:①缩小检索范围,提升速度;②结合业务规则(时间、类别)提高相关性。实现:①向量库内置元数据索引,先过滤候选集;②无内置则结合传统库(MySQL)先筛元数据,再传ID到向量库匹配。需同步元数据与向量更新。六、讨论题(共2题,每题5分)1.对比HNSW、IVF、Annoy的优缺点及适用场景答案:①HNSW:优点高召回、动态更新友好;缺点构建慢、存储大;适用语义搜索、推荐。②IVF:优点构建快、存储小、查询快;缺点召回略低;适用实时检索、百万级数据。③Annoy:优点轻量、易部署、增量更新;缺点召回中等;适用边缘设备、小数据。选择需结合数据量、召回需求、部署环境(如电商实时搜选IVF,AI助手选HNSW)。2.实时检索场景的向量数据库优化方法答案:①索引选IVF(如IVF-PQ),平衡速度与召回;②元数据预过滤:先通过传统库或内置索引筛候选;③量化用IVF-PQ代替Flat,降存储计算;④硬件加速:GPU/TPU算相似度;⑤缓存热点查询;⑥索引分区:按类别/时间分区,缩小范围。需监控延迟、召回,动态调参数(如IVF的nlist)。答案汇总一、填空题答案1.欧氏2.近似最近邻(ANN)3.分层导航小世界4.乘积5.元数据6.总相关向量数7.余弦8.Weaviate(或Pinecone等)9.单条10.新数据未充分索引/无足够样本二、单项选择题答

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论