




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
构建基于AI的多模态科学文献数据标注体系项目需求一、项目概况提供构建基于AI的多模态科学文献数据标注体系及工具的服务;基于该体系及工具提供目标领域的数据标注服务,生成科学文献数据集;在科学文献数据集的基础上,提供接口访问、数据应用服务;具体包括:1)提供构建基于AI的多模态科学文献数据标注体系及工具的服务,支持文本、分子式、反应式等多模态信息的解析识别;2)基于该体系及工具提供围绕生物靶点及合成生物学两大领域的原始数据采集和数据标注服务;生物靶点数据标注服务针对专利信息进行标注和提取,提取内容包括化合物、化合物性质、靶点;合成生物学数据标注服务针对文献和专利信息进行标注和提取,提取内容包括代谢物、酶序列、酶促反应、纳米酶;3)在科学文献数据集的基础上,提供基于AI的接口访问、学术搜索与推荐、数据分析应用服务,实现科学文献数据的高效分享及应用;二、技术要求需求项招标技术要求(一)多模态科学文献数据标注体系及工具服务需提供构建基于AI的多模态科学文献数据标注体系及工具的服务,形成基于AI的多模态科学文献数据标注体系及工具,以账号形式提供项目交付期及验收后一年内使用,需满足下列功能要求:1、针对招标方提供的测试数据集,将文本、表格、2D分子图、公式4种模态转化为文本序列的准确率大于95%;其中文本需转换为markdown、表格需转化为LaTeX、2D分子图需转化为Smiles、公式需转化为LaTeX;单个实例(如一段文本、一个表格、1个2D分子图、1个公式)完全准确计为1个准确实例,不完全准确计为不准确实例,准确率=准确实例个数/测试数据集总实例数*100%;针对招标方提供的测试数据集,文献解析的速度不低于20页/秒;采用的算力规格应为16张RTX4090GPU卡、384核CPU(或更少数量的GPU卡、CPU核);2、要求实现实例分割,能够识别图片中不同形状的边界,支持放大、缩小、编辑,支持预览,在图片上显示创建时间、编号等基础信息;要求实现表格识别,将表格识别成markdown或latex源码;支持有框线和无框线或者混合模式的表格识别;支持分子识别和嵌入;支持旋转90度排版的表格识别;针对招标方提供的测试数据集和预标注模版,平台预标注文本、公式、表格数据的准确率大于80%;准确率=完全准确的字段/总字段;其中标注遗漏的字段视为不准确字段;针对招标方提供的测试数据集和预标注模版,平台预标注2D分子图数据的准确率大于96%;准确率=完全准确的字段/总字段;其中标注遗漏的字段视为不准确字段;3、要求实现标注者查看任务,包括任务名称、创建时间、任务状态;4、在上传PDF文件后,平台依据文献中的不同数据模态来进行区域分割,并自动给出区域x、y坐标和解析的置信度;大模型依据标注参数对PDF文件进行标注后以表格形式输出标注结果,大模型种类不少于3种;以交互式图形界面来对输出结果进行原文溯源定位;对输出结果进行修改;支持画板绘制分子,一键获取画板分子SMILES;支持识别分子图中的单一实体类型、官能团类型;支持添加Markush基团,支持添加手性原子;实现添加正电荷、添加负电荷以及旋转等操作;5、需要实现对标注进度进行可视化查看,包括模型标注审核、人工标注结果、人工标注审核、复核等;6、要求标注系统支持组织超过3000名标注成员进行标注;度进行可视化查看,包括模型标注审核、人工标注结果、人工标注审核、复核等;7、要求具备数据标注工作流;支持管理标注任务的创建、加入、执行和审核;8、要求实现标注项目管理功能,包括导入数据标注数据源,构建供同一项目标注者共同使用的标注模版,创建公开可见的和个人私密可见的标注项目,在项目中设置任务模版、数据源类型、项目描述、指导文档、笔试项目,支持在项目中设置标注次数、重做次数、审查数、任务分配次数、薪酬策略,可通过管理码来赋予管理员权限、通过邀请码来支持标注者加入;9、具备文献排版布局识别能力;支持文本、分子、反应式、科学图表等的精准定位;支持剔除页眉页脚及其他无需阅读的内容;支持单栏、多栏论文的阅读顺序排序;10、要求识别大于100种ISO-639-1语言编码;11、具备快速语言判别模块,需支持不少于包括中文、英文、日语、韩语在内的四种语言识别;12、要求具有数据源管理功能;数据源需支持PDF文件和图片;13、要求提供模版管理功能,能够创建模版以及导入已有的模版;14、要求提供表格类型的模版;表格模版的全部设置需支持交互式操作;支持设置模版描述、模版类型;支持添加模版字段;模版字段中应该包括字段设置、字段描述、样例设置等;模版字段支持删除;15、要求实现查看任务详情,包括查看任务中的原始PDF、查看任务中的所有标注结果、查看任务中的标注者,能够对任务中的标注结果进行直接修改;16、要求满足对标注任务进行评判;支持对标注结果设置为无效数据;支持将标注结果设置为正确或错误;17、要求实现对解析结果进行评判,支持反馈解析有错误的页面;18、要求实现对任务进程进行提醒,包括任务的审核结果、任务的复核结果以及提醒任务重做;19、要求满足对任务进行筛选,包括对标注、审核、判定、已完成等任务状态进行筛选,按照用户名来进行筛选;筛选需支持查询和重置;20、要求实现对任务进行随机检查,并能够查看任务详情,对任务提交评审记录;21、要求支持对任务的多轮评审以及交叉评审,支持自定义评审轮数,支持查看历史评审记录;22、要求实现对标注者进行管理,能够查看标注者基本信息(用户名、邮箱、身份设置)、复核准确率、标注通过率、评审一致通过率,提交次数,应得薪酬;能够对标注者进行封禁和解封;23、要求实现对算法任务进行状态管理;支持查看后台运行任务的列表;支持显示任务创建时间、任务类型、任务状态、数据源等;支持有多个页面的任务列表;24、要求实现标注者领取任务功能,以及查看任务领取状态,包括已完成、已删除、等待中等;(二)围绕生物靶点及合成生物学两大领域的数据标注服务A.生物靶点数据标注服务需使用基于AI的多模态科学文献数据标注体系及工具提供生物靶点领域的原始数据采集和数据标注服务,形成生物医药靶点科学数据集,该科学数据集应满足下列要求:25、靶点数据覆盖完整性:覆盖≥2000个靶点;26、化合物数据完整性:覆盖≥500万种化合物;27、专利数据完整性:覆盖≥40万篇专利;28、化合物性质数据数量:提供≥1000万条化合物性质数据;29、化合物性质数据信息:必须包含活性,可兼顾其它物理化学性质;30、数据来源:专利需覆盖WIPO/USPTO/CNKI,需为每一条化合物性质数据注明专利号;31、数据格式:以靶点分类的CSV形式存储;32、数据访问方式:提供API访问;33、数据支持用于构建高精度的自由能微扰计算模型,并能够将构建好的计算模型用于未测定活性的分子衍生物的活性预测;34、数据支持用于构建高精度的定量构效关系模型,并能够将构建好的计算模型用于未测定活性的分子衍生物的活性预测;35、数据支持用于匹配分子对分析方法,并能够实现基于匹配分子对分析方法产生新的分子衍生物;B.合成生物学数据标注服务需使用基于AI的多模态科学文献数据标注体系及工具提供合成生物学领域的原始数据采集和数据标注服务,形成合成生物学及反应科学数据集,该科学数据集应满足下列要求:36、代谢物条目数量:≥10万条;涵盖人类、动物、植物、微生物等物种及同一物种不同生理状态的代谢物信息;37、酶数据条目数量:≥30万条;覆盖所有主要酶分类(EC1-6类);38、代谢路径和酶反应条目数量:≥40万条酶促反应(酶-底物-产物三元组数据);39、纳米酶数据条目数量:数据涵盖≥2500种纳米酶、≥3000条纳米酶催化反应(酶-底物-产物三元组数据)、≥1万篇文献;40、代谢物数据信息:包含代谢物名、分子式、结构式、标识符(SMILES等);可兼顾其它物理化学性质;41、酶数据信息:包含标准化基础注释(EC编号、来源物种拉丁名等)、催化特性数据(底物,催化条件,比活力,kcat、Km、kcat/Km值等动力学参数)、蛋白序列及结构信息(实验解析结构PDBID或AlphaFold结构预测);42、代谢路径和反应数据信息:包含反应类型与分类(氧化还原、转移、水解、裂合、异构、连接等)、底物/产物信息、催化酶信息(EC编号、序列、来源物种等)、反应条件(pH范围、温度区间、辅因子等)、动力学参数(速率常数kcat、米氏常数Km、活化能Ea);43、纳米酶数据信息:包含结构参数(尺寸等)、反应信息(模拟酶类、反应底物、反应条件、催化活性等)和应用领域(如生物检测、抗菌、肿瘤治疗、环境催化等);44、代谢物数据质量:关键条目(包括但不限于代谢物名、分子式、结构式及标识符)的数据准确率不低于80%(从数据集随机抽样2%,验证方法包括对比权威数据库、人工校验);45、酶数据质量:关键条目(包括但不限于酶EC号、来源物种、酶序列等)的数据准确率不低于80%(从数据集随机抽样2%,验证方法包括对比权威数据库、人工校验);46、代谢路径与酶反应数据质量:关键条目(包括但不限于酶-底物-产物三元组、反应条件等)的数据准确率不低于80%(从数据集随机抽样2%,验证方法包括对比权威数据库、人工校验);47、纳米酶数据质量:关键条目(包括但不限于纳米酶名、模拟酶类、底物、产物、反应条件等)的数据准确率不低于80%(从数据集随机抽样2%,验证方法包括对比权威数据库、人工校验);48、数据存储格式:以关系型数据库的形式储存,酶、代谢物、反应数据相关联;(三)基于AI的接口访问、学术搜索与推荐、数据分析应用服务需提供基于AI的接口访问、学术搜索与推荐、数据分析应用服务,平台服务以账号形式提供,期限为项目交付验收后一年时间、API接口提供接入文档说明;该服务对平台功能的要求如下:49、要求包含网页端可视化系统,支持在生物医药靶点科学数据库按靶点、结构相似性进行可视化聚类分析;50、需要满足对代谢物数据进行多维度(分子式、结构式等)智能检索与批量导出,可关联至酶与反应数据库;51、能够实现酶数据按酶名称、EC号、物种等进行检索与导出,使用户能够快速准确地获取所需的酶信息;52、需要实现代谢路径和反应数据的反应信息查询,包含查询界面,支持多种查询方式,如按反应物、产物、酶名称等进行模糊搜索,关联代谢物及酶数据库,确保用户能够迅速找到所需的酶反应信息;53、需要实现用户按照纳米酶的材料类型、性能参数、应用领域等多个维度进行检索和导出;54、要求满足生物医药靶点科学数据库常规查询(如“给定靶点返回活性化合物”)响应时间<1s,支持批量导出(>10万条)数据;55、要求能够上传图片形式的分子结构并在文献库中进行检索,能够输出该分子结构的结构解析信息、生理活性信息、相关文献信息,并以综述的形式呈现;56、要求支持学者推荐;推荐的依据包括研究方向、影响力等;对被推荐的学者可以直接关注;支持复制学者主页;支持微信扫码关注学者;支持查看推荐学者的合作学者列表;支持与推荐学者的AI分身进行智能对话;57、要求提供不少于10门AIforScience相关的课程;课程中应包含视频、课件、Notebook等教学材料;课程主页应包含课程介绍、讲师信息;课程应提供讨论区;58、要求实现查看以期刊形式组织的文献信息;期刊需按照树层级体系分类,层级不少于3级;从期刊分类中应能够直接查看到文献的作者、摘要等文献元数据信息;对查看到的文献,应支持使用大语言模型进行智能问答;要求满足订阅期刊、关键词和学者,并支持基于订阅内容进行自动文献推荐,文献支持列表式和瀑布流;对于推荐的文献,支持用发表时间、被引用次数等因素进行筛选;对推荐的文献进行概括总结;59、能够满足每一所高校以专属形式使用平台功能,包括与高校内部账号打通、支持高校私有域名、支持高校专属门户;60、专属云模式同时具备支持深圳市相关单位采用单点登录方式登录平台的能力;61、要求具备镜像功能;支持使用公开的镜像,公开镜像种类不少于10种;公开镜像支持可视化查看包含的软件、镜像大小、创建时间;支持通过Dockerfile、公网镜像、已有节点等方式来构建个人所有的镜像;个人镜像支持分享给不同的用户,支持发布到镜像市场;支持对镜像通过创建人、名称等进行检索;62、要求通过项目对平台使用进行管理;支持自行创建项目和参与他人创建的项目;项目中支持添加多个成员;支持给成员设置管理员和普通成员的角色;支持项目与存储绑定,所有成员均可共享统一存储;支持项目与节点绑定;支持项目与数据集绑定;63、要求具备存储功能;存储具备共享存储空间和个人存储空间;存储时具备可视化的目录结构;存储空间可以可视化地选择新建、上传、下载、复制、移动、重命名等操作;存储中的文件可以可视化地展示、编辑;64、要求满足常见结构文件POSCAR、CONTCAR、CIF、XYZ的在线预览和编辑;要求需要满足分子轨迹文件dump、lammpstrj,分子结构信息pdb、sdf、mol、mol2文件的在线预览;(所有功能点均需提供系统功能截图作为证明材料);65、要求具备数据集功能;创建数据集时应支持设置数据集名称、数据集路径、项目;支持上传数据集文件、数据集文件夹;支持对数据集进行可见成员的权限设置;支持对数据集文件进行检索、查看、下载、删除;66、需要满足数据存储、检索、管理的必要需求,保证数据使用安全性;67、需要实现excel文件导入;支持批量导入;支持缺失值和异常数据的自动检测和处理;68、需要满足用户自定义模版、自定义数据库表头;69、需要满足用户修改或删除数据;70、要求实现自助选择并可视化分析数据集;支持柱状图、饼图、散点图、小提琴图等多种可视化工具;支持计算平均值等参数;71、要求满足在不同数据表之间建立灵活的关联关系的能力;72、要求满足支持直接输入化学式或SMILES进行检索;73、要求实现大语言模型智能应用;大语言模型智能应用需支持代码解读;大语言模型智能应用需支持问答;大语言模型智能应用需支持论文解读;74、要求提供完善的用户管理功能,包括用户登录的统一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学区房屋抵押借款协议书5篇
- 2025年生态修复工程生态系统服务功能评估报告:京津冀区域生态修复规划
- 2025年生态旅游可持续发展规划与管理旅游可持续发展能力提升报告
- 2025年生态补偿机制对生态环境损害赔偿制度的影响与对策报告
- 2025年城市污水处理厂智能化升级改造对污水处理厂智能化升级的推动作用报告
- 2025年民办教育机构合规运营与品牌建设教育创新模式研究报告
- 夯实语文基础知识专项训练方案
- 基于Django的英语在线视频教学系统:设计理念与技术实现
- 短视频内容创作评分标准
- 生物圈生态系统专题教学设计方案
- 病毒感染课件
- 涉案财物处置培训
- 卫生院艾滋病培训课件
- 初中数学课堂中的问题链式教学策略研究
- 钢结构拆除施工应急预案范文
- 堆料场安全管理制度
- 心跳呼吸骤停患者的护理
- 2025年中国电梯能量回馈单元行业投资前景及策略咨询研究报告
- 学生健康素养评价指标体系研究
- 转包免责协议书
- 儿童支气管哮喘诊断与防治指南(2025)解读课件
评论
0/150
提交评论