




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
解锁Oracle数据库的AI潜力演讲人:尹海文尹海文公众号:胖头鱼的鱼缸;CSDN:胖头鱼的鱼);CONTENTS▶向量数据库基本概念 向量数据库与生成式AIOracleAI向量搜索如何让机器学习区分不同的事物?根据不同事物的特征例如:区分不同种类的狗,就可以通过体型大小、毛发长度、鼻子长短等特征来区分。如下面这张照片按照体型排序,可以看到体型越大的狗越靠近坐标轴右边,这样就能得到一个体型特征的一维坐标和对应的数值,从0到1的数字中得到每只狗在坐标系中的位置。然而单靠一个体型大小的特征并不够,像图中哈士奇、金毛和拉布拉多的体型就非常接近,我们无法区分。根据不同事物的特征继续观察其它的特征,例如毛发的长短。这样每只狗对应一个二维坐标点,我们就能轻易的将哈士奇、金毛和拉布拉多区分开来根据不同事物的特征机器学习根据不同事物的一系列特征来区分不同的事务,每个特征可以被记录为一维坐标和对应数值,世间万物都可以用一个多维坐标系来表示,它们都在一个高维的特征空间中对应着一个坐标点,从而分辨一个事物。向量嵌入(VectorEmbedding)例如:我们将这句话“例如:我们将这句话“Thisismyfavoriteseason”用text-embedding-ada-002模型进行文本Embedding,它会生成一个1536维的向量,得到的结果是这样:“-0.006829283475992422,-0.005386422007500928,…...-0.004547132269452536,-0.026047505116502243”,它是一个长度为1536的数组。这个向量就包含了这句话的所有特征,这些特征包括词汇、语法、语义、情感、情绪、主题等。图片、文本、视频和语音等非结构化数据,通过人工智能技术提取出特征向量,然后通过对这些特征向量的计算和检索来实现对非结构化数据的分析和检索。向量检索通常是近似查找,要权衡搜索精度和速度。常用的向量检索方法:•图搜索:HierarchicalNavigableSmallWorlds(HNSW)SensitiveHashing)LSH•量化:ProductQuantization(PQ):有损压缩2-DimensionalData-Set#1#21.使用K均值聚类算法将向量分组为分区(K=2.计算从查询向量到每个分区质心的距离2-DimensionalData-Set#1#21.使用K均值聚类算法将向量分组为分区(K=2.计算从查询向量到每个分区质心的距离3.找到2个最近的分区4.计算从查询向量到聚类#1和#3中所有点的距离,以查找前5个最接近的匹配项(以红色显示)#5llQueryVectorQueryVector#3X-axis基于图的检索HierarchicalNavigableSmallWorld(HNSW)EntryPointHNSW是向量相似性搜索中表现最好的算法之一,具有超快的搜索速度和出色的准确性索引构建:•图的最低层包含所有向量•按一定规则把图分成多层,越高层的向量越稀疏•基于相似性连接向量,连接相邻节点,每个点有n个友邻点向量检索在下面的层中继续进行搜索•当搜索到对底层时,找到最接近的前K个向量向量数据库是一种专门用于存储、索引和查询向量数据的数据库系统。向量数据库能够将向量存储为高维点并进行检索。可以高效、快速地查找N维空间中的最近邻。这些功能通常由近似最近邻(ANN)索引提供支持,构建索引的算法有:分层可导航小世界(HNSW)和倒排文件索引(IVF)算法等。向量数据库提供了其他功能,例如数据管理、容错、身份验证、访问控制以及查询引擎等。与传统关系型数据库相比:•数据类型:向量数据库专门用于存储和管理向量数据,而传统数据库则可以存储各种标量类型的数据,例如文本、数字、日期等。•数据规模:通常向量数据库数据量比较大,一般要考虑可线性扩展的系统。•查询方式:传统的数据库查询通常是一种精确查找,即查询得到的结果要么符合条件要么不符合条件;而向量数据库的向量查询通常是近似查找,即查询得到的结果是与输入条件最相似的,而近似比较对计算能力要求非常高。向量查询通常是计算密集型的。向量数据库的应用场景物体检测向量数据库的应用场景常见的向量数据库全球向量数据库产业图谱向量数据库排名与趋势APIAPIAPIAPIAPIAPIYQL:SQL-likequerylanguaAPIAPIAPIAsubsetofANSISQLVectorVectorNYNYNYYY?Y?Y?NYCONTENTS▶向量数据库基本概念 向量数据库与生成式AIOracleAI向量搜索LLM是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,单一模型可以执行广泛的任务,包括词法分析、文本分类、命名实体识别、关键词提取、翻译、情感分析、摘要、对话、写作文、写代码等。大语言模型训练与推理流程预训练阶段推理阶段微调阶段推理阶段型型LLM面临的挑战—幻觉(hallucinations)和过时信息•结果是通用信息:难以与企业或某领域特定专业数据相关检索式增强生成方法(Retrieval-AugmentedGeneration)RAG从企业知识库中检索与请求最相关的信息,并与用户请求捆绑一起作为提示,发送给LLM以获得响应401kpolicy?”VectorDatabaseRelationalDatabase•专业领域:通过将权威、可信的信息转•数据安全:避免使用敏感的私域客户数据进行LLM训练和微调•知识更新:向量数据库作为LLM的实时更新的知识库•缓存:缓存以前的LLM提示/回答以提高性能并CONTENTS▶向量数据库基本概念 向量数据库与生成式AIOracleAI向量搜索OracleAIVectorSearchOracleDatabase23c中即将推出的一组新功能设计简单易用且易于理解新的SQLEmbedding函数用于生成向量数据新的VECTOR数据类型用于存储向量数据新的SQL语法和函数轻松表达相似性搜索在同一数据库中处理向量和其他工作负载Vector数据类型新的VECTOR数据类型(底层采用BLOB存储以实现长期可扩展性)createcreatetablemy_images(idnumber,imageBLOB,img_vecVECTOR(768,FLOAT32))维度数量最大可支持64K支持灵活的维度数量和格式类型:createcreatetablemy_images(idnumber,imageBLOB,img_vecVECTOR);好处:嵌入模型随着技术的发展而变化,但您的架构可以保持不变Vector运算VECTOR_DISTANCE(VECTOR1,VECTOR2,<distancemetric>)使用欧几里得、余弦相似度、点积等指标(metric)来比较向量的相似度向量平均值。例如,计算一个句子中所有单词的平均向量,作为该句子的向量VECTOR_DIMENSIONS_COUNT(VECTOR)计算向量的维数计算向量的欧几里得范数/长度•支持更多向量运算……createcreatetablevec_tabFLOAT32’)),‘SelectSelectdataVecfromtab->SelectFROM_VECTOR(dataVec)fromtab->‘[1.1,2.2,3.3]’原生支持生成向量数据-SQLEMBEDDINGS函数selectselectid,imagefromcat_imagesorderbyVECTOR_DISTANCE(img_vec,EMBEDDING(resnet_50USING:input_img))fetchfirst2rowsonly;输入查询图片图片库向量化存放在数据库中相似图形向量搜索GenerationEmbeddingGenerationEmbeddingEmbeddingEmbeddingGeneration图片和向量均存放在数据库中EMBEDDING(resnet_50USINGimage图片和向量均存放在数据库中输出匹配结果DECLAREDECLAREmodel_sourceBLOB:=NULL;BEGINmodel_source:=DBMS_CLOUD.get_object(credential_name=>'OBJ_STORE_CRED',object_uri=>'https://objectstorage…bucketname/o/resnet50bundle.onnx’);DBMS_DATA_MINING.import_onnx_model(model_name=>"resnet50",model_data=>model_source,metadata=>JSON('{function:"embedding"}'));END;Vector索引createcreatevectorindexvector_idxonvector_table(data_vector)organization[inmemoryneighborgraph|neighborpartition]createvectorindexvector_idxonvector_table(data_vector)organizationneighborpartitionparameters(num_centroids1024);77040411636328--92OracleVector其他特性支持相似性搜索JOIN关系型数据。支持所有类型的工作负载和数据模型:支持所有SQL,包括复杂的运算和功能:•Windowanalyticfunctions,storedprocedures,aggregationShowmetheShowmethetop3photos,groupedbyyear,overthepast5years,basedonsimilaritytoaprovidedqueryimage.Thephotosshouldhavebeentakenwithin20milesofSanFrancisco,andhavebeenviewedbyatleast100differentpeople.专用的向量数据库不可能做到以上功能 SelectSelectpageIDfromAuthors,Books,PageswhereAuthors.authorID=Books.authorIDandBooks.bookID=Pages.bookIDandAuthor.authorCountry='Guatemala'orderbyvector_distance(pageVec,:queryVec)Vector事务处理40405613782956137829Vector在RAC的横向扩展RACnode1RACnode2RACnode3SmartExadataStorageVector分区和分片横向扩展分区|每个分区创建单独的向量索引Vector使用Exadata进行横向扩展RACnode1RACnode2RACno
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业结构调整建议3篇
- 农田耕作劳务承包合同3篇
- 人力入股合伙人协议模板3篇
- 库存控制策略劳动合同模板3篇
- 房产租赁逾期付款的纠纷解决3篇
- 女婿赡养岳父岳母协议书3篇
- 出庭授权委托书格式模板设计3篇
- 天津房屋买卖合同精要解读3篇
- 员工合规承诺保证书的创新特点3篇
- 保险业务系统开发贷款合同3篇
- 2025购销合同(电子产品)范文
- 基于全生命周期的绿色建筑成本影响因素研究
- 2025年普法知识竞赛题库及答案(共80题)
- 心力衰竭护理查房 课件
- 【课时练基础作业】人教版四年级数学下册第四单元《期中计算能力测试》(含答案)
- 树木修剪合同协议
- 2025年兰州市九年级诊断考试(一诊)物理试卷
- 2024年4月27日福建省事业单位《综合基础知识》真题及答案
- 农民工工资专用账户管理制度
- 部编版五年级道德与法治下册第三单元《百年追梦复兴中华》教材分析单元分析
- 初级培训机器人的机械系统
评论
0/150
提交评论