版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(19)国家知识产权局(71)申请人北京长河数智科技有限责任公司地址100160北京市丰台区汽车博物馆西路8号院3号楼7层705申请人长河信息股份有限公司太原政通云科技有限公司(72)发明人张輝宁素云贺一美冯璟GO6N(74)专利代理机构深圳科润知识产权代理事务所(普通合伙)44724专利代理师刘强强(54)发明名称统本发明提供一种基于关键词的文件信息识别方法及系统,获取现有文件,基于现有文件建立文件数据库,根据获取的预设行业术语数据对文件数据库内现有文件进行聚类,获取关键词第一聚类结果,基于BM25模型获取现有文件与查询关键词的相关性评分,基于相关性评分对关键词第一聚类结果进行优化聚类,获取关键词第二聚类结果,根据关键词第二聚类结果结合电磁场模拟方式构建关键词语义关联磁场,获取用户历史查询数据,并基于用户历史查询数据建立个性化动态权重,根据个性化动态权重与关键词语义关联磁场获取关键词第三聚类结果,基于关键词第三聚类结果为用户在文件数据库中识别匹配对基于现有文件建立文件数据库,基于预设行基于现有文件建立文件数据库,基于预设行业术语数据对文件数据库内现有文件进行聚→S1类,获取关键词第一聚类结果至BM25模型获取关键指标信息,动态修正饱和度参数与长度调整参数,并基于BM25模型获取现有文件与查询关键词的相关性评分基于相关性评分进行优化聚类,获取关键词获取用户历史查询数据,基于用户历史查询数据建立个性化动态权重,根据个性化动态权重与关键词语义关联磁场获取关键词第三聚类结果基于关键词第三聚类结果为用户在文件数据21.一种基于关键词的文件信息识别方法,其特征在于,包括有以下步骤:获取现有文件与用户的查询关键词,基于现有文件建立文件数据库,获取预设行业术语数据,并建立行业术语数据库,基于预设行业术语数据对文件数据库内现有文件进行聚建立BM25模型,将关键词第一聚类结果进行结构化处理并导入至B模型获取关键指标信息,根据关键指标信息动态修正BM25模型内的饱和度参数与长度调整参数,所述饱和度参数表示为k1,所述长度调整参数表示为b,基于BM25模型获取现有文件与查询关键词的相关性评分;基于相关性评分进行优化聚类,获取关键词第二聚类结果;基于关键词第二聚类结果与电磁场模拟建立关键词语义关联磁场;获取用户历史查询数据,基于用户历史查询数据建立个性化动态权重,根据个性化动态权重与关键词语义关联磁场获取关键词第三聚类结果;基于关键词第三聚类结果为用户在文件数据库中识别匹配对应现有文件。2.根据权利要求1所述的一种基于关键词的文件信息识别方法,其特征在于,所述建立关键指标信息,根据关键指标信息动态修正饱和度参数与长度调整参数,包括:对关键词第一聚类结果进行结构化处理,生成簇ID-关键词列表映射表;基于簇ID-关键词列表映射表建立标准倒排索引,通过将第一聚类结果中簇的维度信息增加至所述标准倒排索引使得关键词第一聚类结果集成至所述标准倒排索引;基于标准倒排索引中的每个簇统计关键指标信息,并根据所述关键指标信息动态修正k1与b,获取修正饱和度参数与修正文档长度参数。3.根据权利要求2所述的一种基于关键词的文件信息识别方法,其特征在于,所述关键指标信息包括:簇内平均词频,所述簇内平均词频用于计算簇内所有词项在现有文件中的平均出现次簇内词频方差,所述簇内词频方差用于衡量现有文件中词项分布的集中程度;簇间重叠度,所述簇间重叠度用于统计其他簇词项在本簇现有文件中的渗透率;词项占比度,所述词项占比度用于统计簇在现有文件中的词项占比。4.根据权利要求1所述的一种基于关键词的文件信息识别方法,其特征在于,所述基于关键词第二聚类结果与电磁场模拟建立关键词语义关联磁场,包括:将关键词第二聚类结果映射为带电荷的场节点,依据现有文件中包含的行业术语与通用词汇的语义权重分配电荷量,生成关键词语义关联磁场;所述关键词语义关联磁场中包括静电力、磁力矩与洛伦兹力;所述静电力用于反映现有文件中词项共现强度,所述磁力矩用于捕捉层级关系,所述洛伦兹力用于刻画用户查询意图的演化路径。5.根据权利要求1所述的一种基于关键词的文件信息识别方法,其特征在于,所述基于相关性评分进行优化聚类,获取关键词第二聚类基于BM25模型获取的现有文件与查询关键词的相关性评分构建三维评分张量,同时计算关键词第一聚类结果的相似度矩阵;3基于相似度矩阵保留关键词第一聚类结果的语义关联基础,基于三维评分张量对关键词第一聚类结果进行分层细化与边界动态调整,获取关键词第二聚类结果。6.根据权利要求5所述的一种基于关键词的文件信息识别方法,其特征在于,所述三维评分张量包括:查询维度,所述查询维度通过提取查询关键词的得分均值、方差与峰度,记录每个查询关键词在不同现有文件中的得分分布;文档维度,所述文档维度通过计算文档覆盖关键词簇数与最高分簇的得分占比,汇总单个现有文件对多个查询关键词的响应情况;时间维度,所述时间维度用于针对文件数据库,分析同一现有文件在不同时段的评分变化率,基于评分变化率识别新兴热点。7.根据权利要求1所述的一种基于关键词的文件信息识别方法,其特征在于,所述获取用户历史查询数据,基于用户历史查询数据建立个性化动态权重,根据个性化动态权重与关键词语义关联磁场获取关键词第三聚类结果,包括:获取用户历史查询数据,计算固定时间段内用户查询专注度、探索倾向参数及新兴术语查询频率,基于用户查询专注度、探索倾向参数及新兴术语查询频率构建近期行为向量,根据时间衰减函数对近期行为向量进行加权,生成动态兴趣向量;基于动态兴趣向量计算个性化动态权重,根据个性化动态权重获取用户核心兴趣词与边缘兴趣词,增强用户核心兴趣词所在关键词语义关联磁场区域的场强,减弱边缘兴趣词所在关键词语义关联磁场区域的场强,形成陡峭语义势阱吸引与核心关键词相似度高的相基于用户核心兴趣词袋,从关键词第二聚类结果中筛选相关簇作为初始聚类中心进行动态聚类,获取关键词第三聚类结果。8.根据权利要求1所述的一种基于关键词的文件信息识别方法,其特征在于,所述获取预设行业术语数据,并建立行业术语数据库,基于预设行业术语数据对文件数据库内现有使用OpenNMT对原始术语池内数据进行翻译与一致性检验,建立行业术语数据库;基于行业术语数据库对文件数据库内现有文件进行层次聚类,获取关键词第一聚类结9.根据权利要求8所述的一种基于关键词的文件信息识别方法,其特征在于,所述基于行业术语数据库对文件数据库内现有文件进行层次聚类,获取关键词第一聚类结果,包括:基于行业术语数据库构建多级正则表达式,根据多级正则表达式获取现有文件中行业术语的位置与频率,并对现有文件中行业术语的位置进行标注;基于现有文件中行业术语的频率进行TF-IDF计算,并为现有文件中行业术语赋予2至3倍语义权重,为现有文件中通用词汇赋予0.5倍语义权重,获取现有文件中行业术语与通用词汇的语义权重;根据现有文件中行业术语与通用词汇的语义权重对文件数据库内现有文件进行层次10.一种基于关键词的文件信息识别系统,其特征在于,包括:4获取模块,用于获取预设行业术语、现有文件及用户的查询关键词;数据库模块,用于建立文件数据库与行业术语数据库;聚类模块,所述聚类模块可基于预设行业术语对文件数据库内的现有文件进行聚类并获取关键词第一聚类结果,可基于相关性评分进行优化聚类并获取关键词第二剧烈结果,可基于个性化动态权重与关键词语义关联磁场获取关键词第三聚类结果;构造模块,用于建立BM25模型,可基于关键指标信息动态修正BM25模型内的饱和度参数与长度调整参数;计算模块,用于获取现有文件与查询关键词的相关性评分;匹配模块,用于匹配对应现有文件。5技术领域[0001]本发明涉及文档文件识别技术领域,具体而言,涉及一种基于关键词的文件信息识别方法及系统。背景技术[0002]随着信息技术的快速发展,在工程设计、企业知识库等领域,如何从大量文档中快速、精准地提取目标信息成为亟待解决的核心问题。传统方法在信息检索与文本处理中主要依赖于字符串精确匹配或简单正则表达式,其核心逻辑是通过字符级别的完全一致或固定模式来定位目标内容。然而,这种机械化的匹配机制在面对自然语言的复杂性时存在缺陷。“脚踏车”等同义词时,传统方法因缺乏语义理解能力,无法识别这些词汇的等价性,导致相关文档被遗漏,且多义词歧义问题凸显了其局限性,例如“苹果司,单纯基于字符匹配的检索可能返回大量无关结果,而无法结合上下文判断用户真实意[0004]另一方面,传统文件信息识别方法对长文本的理解流于表面使得文件上下文关联或间接的导致检索结果覆盖率低、准确性差,尤其在专业领域中,术语的同义表述义现象普遍,传统方法可能因僵化的匹配规则忽略关键信息,甚至引发错误决策。[0005]因此,综上所述,传统的文件信息识别方法在用户查询匹配文档文件时,精确度较发明内容[0006]鉴于上述提及的问题,结合本发明的第一方面,本发明实施例提供一种基于关键词的文件信息识别方法,所述方法包括:获取现有文件与用户的查询关键词,基于现有文件建立文件数据库,获取预设行业术语数据,并建立行业术语数据库,基于预设行业术语数据对文件数据库内现有文件进行聚类,获取关键词第一聚类结果;建立BM25模型,将关键词第一聚类结果进行结构化处理并导入至BM25模型,基于BM25模型获取关键指标信息,根据关键指标信息动态修正BM25模型内的饱和度参数与长度调整参数,所述饱和度参数表示为k1,所述长度调整参数表示为b,基于BM25模型获取现有文件与查询关键词的相关性评分;基于相关性评分进行优化聚类,获取关键词第二聚类结果;基于关键词第二聚类结果与电磁场模拟建立关键词语义关联磁场;获取用户历史查询数据,基于用户历史查询数据建立个性化动态权重,根据个性化动态权重与关键词语义关联磁场获取关键词第三聚类结果;6基于关键词第三聚类结果为用户在文件数据库中识别匹配对应现有文件。[0007]再一方面,本发明实施例还提供一种基于关键词的文件信息识别系统,包括:获取模块,用于获取预设行业术语、现有文件及用户的查询关键词;数据库模块,用于建立文件数据库与行业术语数据库;聚类模块,所述聚类模块可基于预设行业术语对文件数据库内的现有文件进行聚类并获取关键词第一聚类结果,可基于相关性评分进行优化聚类并获取关键词第二剧烈结果,可基于个性化动态权重与关键词语义关联磁场获取关键词第三聚类结果;构造模块,用于建立BM25模型,可基于关键指标信息动态修正BM25模型内的饱和度参数与长度调整参数;计算模块,用于获取现有文件与查询关键词的相关性评分;该方法可基于行业术语数据库对文件数据库内存储的现有文件进行层次聚类,确保关键词第一聚类结果与行业知识强关联,减少通用词汇的干扰,通过对BM25模型内饱和度参数k1与长度调整参数b的动态修正,适应不同文档集的特性,解决传统BM25模型往往因参数固定而导致的评分偏差问题,且可基于BM25模型输出的相关性评分进行二次聚类,优化簇内文件的同质性,从而解决语义深度理解不充分的问题,并引入电磁场模拟与用户历史数据,将语义关联与个性化偏好融合,实现多维度语义增强,从而解决不同文件动态语境适配较为困难的问题,综上,该文件信息识别方法提升了用户在查询匹配文档文件时的精附图说明[0009]图1是本发明实施例提供的一种基于关键词的文件信息识别方法的步骤流程图;图2是本发明实施例提供的一种基于关键词的文件信息识别系统的示意图;图3是本发明实施例提供的一种电子设备的示意图。具体实施方式[0010]下面结合说明书附图对本发明进行具体说明,图1是本发明一种实施例提供的一种基于关键词的文件信息识别方法的执行流程示意图,下面对该一种基于关键词的文件信息识别方法进行详细介绍。[0011]步骤S1,获取现有文件与用户的查询关键词,基于现有文件建立文件数据库,获取预设行业术语数据,并建立行业术语数据库,基于预设行业术语数据对文件数据库内现有文件进行聚类,获取关键词第一聚类结果。步骤S11,从行业标准文件、专利数据库、学术期刊摘要中提取核心术语,建立原始术语池。[0013]可以理解的,从行业标准文件、专利数据库、学术期刊摘要中提取核心术语,对法7图谱,对图像类文件采用CLIP模型生成图文描述向量,与文本内容关联存储,对表格类文件[0014]步骤S12,使用OpenNMT对原始术语池内数据进行翻译与一致性检验,建立行业术语数据库。[0015]步骤S13,基于行业术语数据库对文件数据库内现有文件进行层次聚类,获取关键词第一聚类结果。步骤S131,基于行业术语数据库构建多级正则表达式,根据多级正则表达式获取现有文件中行业术语的位置与频率,并对现有文件中行业术语的位置进行标注。[0017]具体的,对行业术语数据库内数据进行术语分级,将行业特有且不可替代的词汇合术语,例如“分布式账本技术”,将与行业相关但存在多义性的词汇划分为边缘术语,例如“节点”在IT领域与生物学领域代表不同含义。[0018]进一步的,按术语分级定义匹配顺序,优先匹配核心术语,再处理组合与边缘术语,避免长短语被短词截断,使用多线程并行处理文件数据库中现有文件,对每个文件记录行业术语出现的起始位置、结束位置与上下文片段,并统计全局术语频率,生成词频分布热力图,识别高频核心术语与低频边缘术语。[0019]步骤S132,基于现有文件中行业术语的频率进行TF-IDF计算,并为现有文件中行业术语赋予2-3倍语义权重,为现有文件中通用词汇赋予0.5倍语义权重,获取现有文件中行业术语与通用词汇的语义权重。[0020]步骤S133,根据现有文件中行业术语与通用词汇的语义权重对文件数据库内现有文件进行层次聚类,获取关键词第一聚类结果。[0021]具体的,使用层次聚类算法将文件数据库内数据划分为50-100个超簇,每个超簇超簇的现有文件进行归属重分配,例如,某文件在子簇A的术语覆盖率为70%,在子簇B为30%,则将该文件划入子簇A,计算簇内术语的TF-IDF均值、文档覆盖率、跨簇区分度,选取簇内排名前三的术语作为该簇的簇标签,所述簇标签包括超簇标签与子簇标签,超簇标签用[0022]步骤S2,建立BM25模型,将关键词第一聚类结果进行结构化处理并导入至BM25模型,基于BM25模型获取关键指标信息,根据关键指标信息动态修正BM25模型内的饱和度参数与长度调整参数,所述饱和度参数表示为k1,所述长度调整参数表示为b,基于BM25模型获取现有文件与查询关键词的相关性评分。步骤S21,对关键词第一聚类结果进行结构化处理,生成簇ID-关键词列表映射表。[0024]具体的,对关键词第一聚类结果的每个簇分配一个簇ID,并将每个簇的关键词整理为一个关键词列表,同时将每个簇的簇ID与关键词列表进行绑定,生成[簇ID-关键词列8[0026]步骤S22,基于簇ID-关键词列表映射表建立标准倒排索引,通过将第一聚类结果中簇的维度信息增加至所述标准倒排索引使得关键词第一聚类结果集成至所述标准倒排信息动态修正k1与b,获取修正饱和度参簇内平均词频,所述簇内平均词频用于计算簇内所有词项[0032]具体的,获取每个现有文件的文件长度|d|、簇内平均度方差var(|d|),基于簇级自适应规则与b值动态修改公式修正b值,簇级自适应规则表示9[0033]进一步的,基于步骤S23获取的k1c与bc根据文档-关键词相关性评分公式获取相其中,9表示为查询关键词,TF(t,d)表示为词项t在文档d中出现频率,ID步骤S31,基于BM25模型获取的现有文件与查询关键词的相关性评分构建三维评关性低于预设阈值的离群点进行移除,将多个簇间平均相关性高于预设阈值的多个簇合并步骤S41,将关键词第二聚类结果内每个关键词视[0043]具体的,对关键词语义关联磁场内对基础电荷分配的电荷量由逆文档频率计算,将常见词的电荷量趋近为零,将稀缺行业术语的电荷量设定相对一般行业术语较高,采用动态极化将用户查询会话中被高频点击的词项赋予感应电荷,使该词项周围形成局部场强网络”的强场域,同时设立电荷守恒机制,通过归一化约束使全局电荷总量保持恒定,避免个别热词垄断语义空。[0044]步骤S42,根据库仑定律中电荷间存在相互作用力的理论,将电荷之间的相互作用力对应为词项间的语义关联强度。[0045]具体的,根据库仑定律中电荷间存在相互作用力的理论,将电荷之间的相互作用力对应为词项间的语义关联强度,其中电荷间的相互作用力可分为吸引力与排斥力,吸引力用于表示词项间的高共现概率,所述高共现概率表示为词项间存在语义关联,例如"机器学习"与"神经网络",词项间存在功能依赖,例如“手机”与上下文中指向不同实体,例如"加密"在不同上下文中的歧义指向,同一词项在不同领域中的含义对立,例如“病毒”在生物学领域中指感染生物的病原体,在计算机领域中指破坏计算机程序的恶意代码。[0046]可以理解的,电磁场中磁场线的疏密程度与洛伦兹力可映射为多关键词联合查询的关联演进链。[0047]具体的,将电磁场理论与多关键词查询导航相结合,构建语义路径优化模式,使用磁场线疏密程度映射关键词间的语义关联强度,通过模拟磁偶极子分布建立核心词的高密度磁场区,形成优先导航路径,边缘词则对应低密度区,自动弱化干扰,并引入洛伦兹力驱动将用户查询视为带电粒子运动,电场由查询意图的相似度梯度形成牵引力,磁场由历史行为数据产生的关联网络提供方向约束,通过二者协同生成的复合作用力引导查询路径向最优关键词语义关联磁场区域收敛,当多关键词联合查询时,基于查询关键词涉及关键词语义关联磁场的复合作用力动态调整路径走向,确保路径效率。[0048]进一步的,为每个词项赋予语义磁矩向量,方向由其在树状知识图谱中的层级位向下,该方向模拟磁矩在磁场中的极化特性,使上位词对下位词产生语义吸引力,下位词[0049]当多个词项共现时,其磁矩向量会在语义空间进行矢量叠加,例如查询“地铁+新斜45度的合成磁场方向,引导系统向“清洁能源轨道交通”等交叉概念延伸,这种矢量运算突破传统树形结构的路径限制,实现跨子树语义跃迁。[0050]基于量子场论中虚粒子的概念,将每个词项的交互视为通过虚光子交换实现语义影响力的传导,其中光子携带的动量与语义关联强度正相关,动量方向由词项上下文依赖[0051]步骤S43,基于杨-米尔斯理论建立语义规范场。11[0052]具体的,首先定义不同的行业领域为独立的规范对称群,每个群对应一组行业术语的变换规则,接着设立规范玻色子作为语义传递媒介,将查询词在不同行业的语义规范[0053]进一步的,为建立的关键词语义关联场设立Dirichlet边界,将领域权威术语的位置固定,作为语义场的锚定点,例如,将IEEE标准术语表作为电气领域语义场的锚定点,同时设立周期性边界,对过长尾词,如专利中的复合词,启用镜像反射机制,确保其处于主语义场的作用范围内,并为关键词语义关联场设立场畸变校正机制,通过流形校正算法检测异常排斥现象,如"数据安全"与"隐私保护"不应出现强排斥,加入拉普拉斯平滑项消除违背行业常识的力线扭曲。[0054]步骤S5,获取用户历史查询数据,基于用户历史查询数据建立个性化动态权重,根据个性化动态权重与关键词语义关联磁场获取关键词第三聚类结果。[0055]步骤S51,获取用户历史查询数据,计算固定时间段内用户查询专注度、探索倾向参数及新兴术语查询频率,基于用户查询专注度、探索倾向参数及新兴术语查询频率构建近期行为向量,根据时间衰减函数对近期行为向量进行加权,生成动态兴趣向量。[0056]具体的,用户历史查询数据包括查询词、点击文档、停留时间以及时间戳信息,统[0057]可以理解的,基于用户历史查询数据的主题收敛性,采用滑动窗口分析连续查询关键词的主题分布,通过LDA模型提取每小时级主题向量,计算窗口内各时段向量的余弦相化”等同领域术语,搜索词项间的主题向量相似度>0.85,则设立其专注度值趋近1,若用户交替搜索“量子计算”与“烘焙技巧”等跨领域词,搜索词项间立其专注度值为0.2。[0058]可以理解的,基于横纵向维度探索获取探索倾向参数,其中横向维度统计查询词在知识图谱中的离散度,计算用户访问节点间的平均最短路径长度,纵向维度检测跨层级跳跃,两者加权融合,当每小时发生大于5次跨三级跳跃时,探索参数突破0.9阈值,并通过实时追踪各领域术语的搜索增长率,获取新兴术语查询频率。[0059]进一步的,将上述三指标归一化为[0,1]区间后组成三维向量V=(专注度,探索度,新兴度),并引入指数衰减因子λ=0.05,使24小时前的行为权重降至初始值的30%,当前时刻行为保持100%权重。[0060]步骤S52,基于动态兴趣向量计算个性化动态权重,根据个性化动态权重获取用户核心兴趣词与边缘兴趣词,增强用户核心兴趣词所在关键词语义关联磁场区域的场强,减弱边缘兴趣词所在关键词语义关联磁场区域的场强,形成陡峭语义势阱吸引与核心关键词相似度高的相关词项聚集,建立用户核心兴趣词袋。[0061]步骤S53,基于用户核心兴趣词袋,从关键词第二聚类结果中筛选相关簇作为初始聚类中心进行动态聚类,获取关键词第三聚类结果。[0062]具体的,基于关键词语义关联磁场,计算簇内关键词词项间的引力值,例如簇C中“智能合约”与“去中心化”的关联强度为0.92,构建簇内关键词的PageRank排序,识别核心0.65,生成预加载建议,通过整合用户行为数据与关键词语义关联磁场,动态调整聚类权重并优化层次合并策略,从而获取关键词第三聚类结果。[0063]步骤S6,基于关键词第三聚类结果为用户在文件数据库中识别匹配对应现有文件。[0064]具体的,基于关键词第三聚类结果为用户在文件数据库中识别匹配对应现有文件,对于查询信息过短的简单查询,使用第三聚类中的关联关键词扩展原始查询,例如用户仅输入“区块链”一词,则将“区块链”扩展为“区块链智能合约共识机多的文件,对于查询信息过长的复杂查询,执行核心短语提取,仅保留查询语句中排行前三的短语,并将其作为匹配锚点匹配文件,例如用户输入“精选Java在线编程课程与实战项目[0065]进一步的,基于用户历史查询信息对用户查询进行个性化匹配设置,所述个性化匹配设置包括:用户查询匹配结果中同一簇的文件在结果页中最多展示3篇,并按时间、权威度与用户偏好综合排序,同时预留10%的推荐位,用于展示低关联但高热度文件,监测用户点击行为以挖掘潜在兴趣,对于用户24小时内高频查询(>100次)的结果进行预计算,并将预计算结果存入Redis,按用户ID哈希分片存储其历史高评分文件索引,当用户查询与预计算结果相匹配时,优先从缓存获取个性化匹配结果,对用户高频点击的跨模态内容增加关联奖励因子,例如偏好专利附图的用户,为其在查询专利文件时增加20%的图文关联奖励因子,分析文件发布时间与用户查询时间的间隔,优先为用户匹配发布时间最近的文件,并基于用户查询文件的最新发布时间对发布时间较早的文件施加时效性增益,例如历史时政文件的发布时间相较最新时政文件发布时间每早一周,则该历史时政文件的权重占比就衰减0.5%,针对查询关键词命中某簇核心节点,即该查询关键词的PageRank值>簇内前10%,则该簇内所有文件获得15%的相似度加成。[0066]图2示出了本申请一些实施例提供的可以实现本申请思想的一种基于关键词的文件信息识别系统的示意图,下面对该一种基于关键词的文件信息识别系统进行详细介绍。获取模块,用于获取预设行业术语、现有文件及用户的查询关键词。[0068]数据库模块,用于建立文件数据库与行业术语数据库。[0069]聚类模块,所述聚类模块可基于预设行业术语对文件数据库内的现有文件进行聚类并获取关键词第一聚类结果,可基于相关性评分进行优化聚类并获取关键词第二剧烈结果,可基于个性化动态权重与关键词语义关联磁场获取关键词第三聚类结果。[0070]构造模块,用于建立BM25模型,可基于关键指标信息动态修正BM25模型内的饱和度参数与长度调整参数。[0071]计算模块,用于获取现有文件与查询关键词的相关性评分。[0073]下面对本实施例的具体使用方式与作用进行说明:首先通过步骤S1获取现有文件,基于现有文件建立文件数据库,获取预设行业术语数据建立行业术语数据库,基于预设行业术语数据对文件数据库内现有文件进行聚类,获取关键词第一聚类结果,通过行业术语精准引导聚类,实现关键词快速定位与文件智能归类,从而提升信息检索准确性和管理效率,接着通过步骤S2建立BM25模型,将关键词第一聚类结果进行结构化处理并导入至BM25模型,基于BM25模型获取关键指标信息,根据关键指标信息动态修正饱和度参数与长度调整参数,所述饱和度参数表示为k1,所述长度调整参数表示为b,并基于BM25模型获取现有文件与查询关键词的相关性评分,随后根据步骤S3基于相关性评分进行优化聚类,获取关键词第二聚类结果,通过动态调整BM25模型内的k1与b,结合相关性评分优化聚类结构,提升检索准确性与语义关联性,实现更精准的关键词聚合与文件匹配,然后按照步骤S4基于关键词第二聚类结果与电磁场模拟建立关键词语义关联磁场,紧接着按照步骤S5获取用户历史查询数据,基于用户历史查询数据建立个性化动态权重,根据个性化动态权重与关键词语义关联磁场获取关键词第三聚类结果,最后按照步骤S6基于关键词第三聚类结果为用户在文件数据库中识别匹配对应现有文件,本实施例融合用户行为与语义场动态优化,实现个性化精准匹配,提升文档文件检索效率与用户查询匹配的精确度。[0074]图3示出了本申请一些实施例提供的可以实现本申请思想的一种电子设备的示意图的示意图,下面对该一种电子设备进行详细介绍。至少一个处理器10;以及,与至少一个与处理器通信连接的存储器11;其中,存储器11存储有可被至少一个处理器10执行的指令,指令被至少一个处理器10执行,以使至少一个处理器10能够执行本发明实施例一提出的方法。[0076]下面对电子设备的各个构成部件进行具体的介绍:其中,处理器10是电子设备的控制中心,可以是一个处理器,也可以是多个处理元件的统称。例如,处理器10是一个或多个中央处理器(centralprocessingunit,CPU),也可以是特定集成电路(applicationspecificintegratedcircuit,ASIC),或者是被配置成实施本发明实施例一的一个或多个集成电路,例如:一个或多个微处理器(digitalsignalprocessor,DSP),或,一个或多个现场可编程门阵列(fieldprogrammablegate[0077]其中,处理器10可以通过运行或执行存储在存储器11内的软件程序,以及调用存储在存储器11内的数据,执行电子设备的各种功能。[0078]存储器11用于存储执行本发明方案的软件程序,并由处理器10来控制执行,具体实现方式可以参考上述方法实施例,此处不再赘述。[0079]存储器11可以是只读存储器(real-onlymemory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(randomaccessmemory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以电可擦可编程只读存储器(electrically光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 案场知识培训
- 课件看录屏教学课件
- 土木基础与工程 10
- 案例复盘培训课件
- 2026年车光储一体化系统项目评估报告
- 医疗设备租赁行业市场调查
- 智能化医疗设备质量控制
- 医疗设备维修与保养技术探讨及创新实践案例分析
- 医疗行业创新引领
- 医疗健康产业投资
- DB37-T 4440.2-2021 城市轨道交通互联互通体系规范 信号系统 第2部分:ATS系统工作站人机界面
- 韩语topik所有历届考试真题及答案
- 2025年全国体育单招考试数学试卷真题答案详解(精校打印版)
- 高压电工操作证培训课件
- 2024年11月对口高考各科计算机文化基础练习题(含答案)
- 2025年海南省直及地市、县事业单位招聘考试自然科学专技类(综合应用能力·C类)历年参考题库含答案详解(5卷)
- 2025年同等学力申硕-同等学力(动力工程及工程热物理)历年参考题库含答案解析(5套典型题)
- 隐睾护理查房
- 施工企业奖惩管理办法
- 巡视人员奖惩管理办法
- 保洁员工5S管理
评论
0/150
提交评论