网页图片无障碍替代文本自动生成算法设计与实现的中期报告

上传人：小*** IP属地：上海上传时间：2024-03-29 格式：DOCX 页数：3 大小：11.17KB 积分：6 举报 版权申诉

全文预览已结束

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

网页图片无障碍替代文本自动生成算法设计与实现的中期报告一、问题描述：在网页上，图片对于视觉障碍人士存在一定的难度。因此，无障碍替代文本是一项重要的功能，能够提供给屏幕识别器和语音识别仪使用。因此，我们需要一种算法来实现自动为网页图像生成替代文本的需求。二、前期调研：1、需要分类的图片我们需要分类以下两种图片：（1）信息性图片：包含文字或图形式的内容（2）装饰性图片：无特殊含义的纯图片2、图片分析的难点在对网页图片进行分析时，主要有以下难点：（1）图片含义不明确无法确定图片的确切含义，因此无法生成可读性高、易理解的文本。（2）同一图片多种语义同一张图片可能有不同类型的解释，不确定使用哪种解释会更好。（3）图片较少文本例如，一张包含文字的图片，但文本量很少，这时很难生成合适的描述文本。三、算法设计：1、采用OCR技术识别图片的文本部分，自动生成替代文本对于信息性图片，我们可以使用OCR技术，提取并识别图片中的文本部分，然后根据文本内容生成替代文本。2、根据图片特征与语意分类对于装饰性图片，我们使用图像处理技术分析图片差异，寻找有规律的图片簇，并按图片规律与语意分类，给出合适的替代文本。3、使用人类工作直接替换对于一些无法利用算法进行处理且不能通过图像处理直接获取有用信息的图片，我们只能通过人类工作来编写合适的替代文本。四、算法实现：1、基于OCR技术，使用Tesseract识别图片中的文本部分2、使用机器学习算法生成图片的特征向量，并根据特征向量分类3、为每个分类生成合适的替代文本五、下一步工作：基于以上算法实现，下一步需要进行以下工作：1、完善OCR技术的识别准确率2、提高图片语义分类的准确性，例如引入自然语言处理技术3、加入人工审核机制，确保生成的替代文本的质量4、开发可视化工具，方便人工审核，并加快生成速度。六、参考文献：[1]C.Yadav,U.Chaturvedi,andA.Kumari,“AutomaticExtractionOfRelevantTextFromImagesForVisuallyImpairedPeople,”IEEETransactionsonNeuralNetworksandLearningSystems,vol.27,no.10,pp.2220-2232,Oct.2016.[2]D.YangandM.Q.Hu,“ImageCaptioningBasedonConvolutionalNeuralNetworkandVisualAttention,”IEEETransactionsonMultimedia,vol.21,no.11,pp.2715-2726,Nov.2019.[3]P.Singh,S.Pandey,andP.Rai,“ImageTextDetectionUsingTesseractOCRAndAMaximumEntropyModel,”IEEETransactionsonNeural

人人文库> 全部分类> 毕业设计 > 开题报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

网页图片无障碍替代文本自动生成算法设计与实现的中期报告

文档简介

温馨提示

最新文档

评论

网页图片无障碍替代文本自动生成算法设计与实现的中期报告

文档简介

温馨提示

最新文档

评论

相关文档