




已阅读5页,还剩7页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于在线翻译服务的集成应用框架第27卷第3期2011年6月上海电力学院JournalofShanghaiUniversityofElectricPowerVo1.27,No.3June201l文章编号:10064729(2011)03029304基于在线翻译服务的集成应用框架杨琚(上海电力学院计算机与信息工程学院,上海200090)摘要:当前在线翻译服务,如谷歌翻译,金山翻译,雅虎翻译等都得到了广泛使用,但使用这类在线翻译服务通常需要记住该网站的网址或者通过搜索引擎寻找这类网站.为了方便用户使用,构建了在此类在线信息服务平台上进行数据二次整合的模型,并且使用了Vc开发工具实现其集成应用框架,以提高用户的可操作性和实用性.关键词:在线服务;翻译;集成应用框架中图分类号:TP319;H085文献标志码:AAnIntegrationApplicationFrameworkforOnlineTranslationServiceYANGJun(SchoolofComputerandInformationEngineering,ShanghaiUniversityofElectricPower,Shanghai200090,China)Abstract:Nowadays,onlinetranslationservicehasbeenwidelyused,suchasGoogleTranslate,ICIBATranslateandYahooTranslate.However,usershavetorememberthewebsiteaddressorsearchthewebthroughsearchenginestogetservice.Inordertomeettheneedofconvenientapplication,anintegrationmodelofonlinetranslationserviceandanintegrationapplicationframeworkforthisserviceusingVCdevelopmenttoolsareproposed,toenhancetheusersmaneuverabilityandpracticability.Keywords:onlineservice;translation;integrationapplicationframework随着互联网络技术的发展,人们需要在繁多的网上资源中获得想要的信息,现在很多人都在使用像Google这样的搜索引擎,以及Altavista,CNN,Babelfish,FreeTranslation等完成对信息的获取.在线翻译的优点很明显,它并不需要客户端,直接在网页上使用就可以了,但随着打开网页所需要的浏览器功能的逐渐增多,耗费在打开网页上的时间对用户来说常常是不能忍受的,用户每次使用在线翻译都需要寻找翻译网站,浪费了用户的时间和费用.因此,如何在提供网上在线翻译服务的基础上进行数据的二次利用,是值得研究的问题.本文收稿日期:20100712通讯作者简介:杨瑁(1978一),女,博士,讲师,江西上饶人.主要研究方向为图像检索,数据库技术.Email:yangjunhotmail.corn.基金项目:上海市自然科学基金(09ZR1413400);上海市教委优青项目(sd108026);上海市教委科研创新项目(09YZ344).294上海电力学院2011钲通过建立一种在线翻译服务的集成框架,实现多种在线翻译程序的集成使用,提高了用户使用此类服务的可操作性和实用性.1模型设计思想当前,网上数据的提供方式大都使用Web页面形式进行用户操作,当用户为了得到相关信息时,其操作步骤为:打开网页,在网页中输入具体内容,提交,最后得到结果J.例如,Google的翻译页面如图l所示.这是一种典型的网上用户信息获取方法,但这种方法对于访问频度较高的用户而言,显得不是很方便.如果能够向用户提供一种不需要通过浏览器浏览网页获取信息,而是通过简洁的客户端方式并具有一定的数据挖掘分析能力的使用方式获取信息的话,则将大大方便用户使用.两种使用模式的基本流程对比如图2所示.自J,lWmmI/6l同而;=面商嘲喇一图1C,oogl网上翻译屏幕一旦墼墨倦的现有b新的处理模式使用模式.图2两种不同的处理模式对比图2b通过前端的用户信息处理,对网上web数据提供的信息在内部进行二次数据的加工处理.在此模式下,客户端实施数据统计,挖掘等处理方法,并对已有数据引擎的提供者进行数据的二次处理.但对利用他人提供的信息进行信息处理时必须考虑合法性,以及道德等相关问题.基于第3方信息提供的网络信息数据的挖掘,网络通讯可以采用定量(不返回所有搜索信息),定期(有限时间周期)等方法来缓解Web数据信息提供服务器运行时的压力.2组件及相关数据流程信息的传递通过网页数据的形式进行.网页处理的两大部分包括:网页数据内容获取;数据内容解析.网页数据内容获取主要完成具体网页内容的下载和内部网页内容的下载;数据内容解析,主要用于解析网页中感兴趣的内容剖.具体的解析过程如图3所示.其数据解析大致框架流程包括以下几个方面:图3框架流程(1)初始化包括一些特定数据信息服务的连接信息,本地功能性连接的初始过程;(2)判断是否继续连接Web数据服务对于向特定的Web数据提供服务,有必要判断是否为可使用数据源信息;(3)继续解析要连接的提供信息服务的网络地址考虑到地址树的各个数据源不同,对提供杨:基于在线翻译服务的集成应用框架的不同信息,不同地址实施具体的数据解析工作;(4)数据获取的post方法对于不同的数据信息,不采用http的get方法实施数据的获取,而是使用post向数据源请求数据,并在此过程中解析网络数据源反馈的数据;(5)继续获取下一个数据网络URL地址一个网页中的信息可能通过URL标记到其他数据源的URL中,因此有必要通过当前的URL网页内容来获得此类完整的数据源URL树.(6)继续下一个操作通过迭代方法获取下一个数据源URL的数据内容.模型的具体实现采用VC编码实现,表l描述了对于一网页内容所采用的一些关键解析方法.表1客户端连接时的一些典型方法方法对应实现的功能的描述GetLinksReplaceEveryRemoveCommentsRemoveScriptsremoveEnclosingAnchorTagRemoveHtm1m前向搜索HTML文档中相应的字符串位置后向搜索HTML文档中相应的字符串位置前向提取HTML标签内的数据内容取得HTML内的所有连接数据,包括hmf与图片的连接替换HTML中的出现的所有字符串的内容去除HTML文本串中的注释文本去除HTML文本串中的客户脚本文本去除HTML文本串中的锚点标签去除文本串中的HTML文本结构内容去除子串中的前字符和后字符结构内容其他的一些方法3基于框架的一个典型翻译的应用采用以上框架模型的设计方法可以实现网上在线翻译的集成应用.3.1基于框架模型翻译处理的主要方法基本处理步骤如下:通过HrrP数据交互方法将客户端信息发送到服务器端,Google翻译时发送和接受具体标签,然后对返回数据进行数据内容解析,取得要获得的具体内容.Google翻译时发送和接受的具体标签内容描述如下.3.1.1发送时数据<selectname=langpair>:选择性标签.用以标记相互翻译的转换语言对,例如英文到中文的翻译,其值为enIzh,英文对法文则是enlfr等.<textareaname=textrows=5cols=45wrap=PHYSICAL>文本框内容,具体标记的是要被翻译的内容.<inputtype=hiddenname=hivalue=zhCN>隐藏域内容,用以标记具体浏览器字符,显示属性.<inputtype=hiddenname=ievalue=UTF8>隐藏域内容,用以标记具体发送的字符编码.3.1.2返回时数据文本解析内容通过以上数据包发送到数据信息提供服务器,会返回相关的状态和数据信息,要想获取相应的数据就必须解析返回的数据内容.需要解析的标签如下:<textareananleqrows=5cols=45wrapPHYSICAL>文本框内容,为服务器返回时的具体被翻译的内容.3.1.3相关流程(1)取用户端数据用户界面输入;(2)构造要发送的网络地址如对应Goosle翻译服务的发送地址/translatet;(3)构造客户端要发送的内容取客户输入时的相应数据,构造对应的发送参数,如langpair=enIzh&hl=en&ie=UTFS&text=Iamgraduatestudent;(4)发送数据通过地址和地址参数发送到具体的服务器;(5)接收返回的数据通过解析接收到的文本内容(解析标签<textareaha/he=qroWS=5cols=45wrap=PHYSICAL>),获得相应的翻译后内容;(6)解析返回数据的内容显示具体的翻译内容.3.2多个网上翻译服务的客户端集成多个网络翻译服务的客户端界面如图4所示.主要包括了一组两个大的文本框:一个用于让用户输入原文;一个用于显示翻译结果.两个文本框都支持多行文本的输入.下面有3个按钮:一个是雅虎翻译的按钮,点击此按钮可通过雅虎在线翻译处理数据;一个是金山翻译的按钮,点击此按钮,数据则通过金山翻译的网站来处理数据;一个是退出按上海电力学院钮,以方便用户退出.此外,还有3个网站超链接.这3个网站都是在线翻译网站,以便用户在得不到想要结果的时候直接登录网站进行查询.下面以金山翻译为例说明在线翻译服务的客户端工作原理.中译英英译中回我们还为您提供以下链接:必应BIN睦翻译有道在线翻译g00g1e在线翻译曩雅虎翻译的翻译结果中译英英译中回我们还为您提供以下链接:必应BING在线翻译有道在线翻译删e在线翻译b金山翻译的翻译结果图4多个在线翻译服务的客户端集成金山翻译主要是通过金山词霸的在线翻译网站来处理用户想要翻译的数据,其功能主要分成两个部分:一是数据请求部分,先由程序发送请求并传递参数,然后再接收返回的数据流;二是数据截取部分,根据数据流内的特定标记来截取需要的数据.数据请求部分的代码:stringurl=http:/www.iciba.corn/+texts:stringhtml=null;Encodingencode;WebRequestreqWebRequest.Create(m1);WebResponseYes=req.GetResponse();Streamreceivestream=res.GetResponseStream();encode=Encoding.GetEncodingfUTF一8.);StreamReadersr=newStreamReader(reeeivestream,encode);charreadbuffer:newchar256;intn=sr.Read(readbuffer,0,256);while(n>0)stringstr=newstring(readbuffer,0,n);html+=str;n=sr.Read(readbuffer,0,256);该部分程序首先确定了一个ud就是http:/WWW.iciba.corn/而其中的参数为texts,用Webrequest类向服务端发送请求,服务端在接收请求之后便会响应客户的请求,服务端返回响应的数据流,然后对接收到的数据流进行处理,通过wireshark工具进行分析,得知服务端返回的数据流都是文本数据,因此使用streamreader类来处理文本文件,并对接收到的数据流进行编码.此时,就处理好了接收到的数据,但所得到的数据中绝大部分是不需要的,因此需要对这些数据进行筛选.stringobj=<ulclass=tabculfontblackmarginleftl0margintopl0font.14><li>:inti_htm1.IndexOf(obj);intbegin=i+obj.Length+33:intj=htm1.IndexOf(tttttt</span>n|f|f|f|f|f<divclass=|showexpstyle:-color:#888888t.>,begin);stringa=htm1.Substring(begin,j-begin);returna;使用这段代码的主要目的是进行数据筛选,主要的工作过程如下:首先是准备工作,可以通过查看网页的源文件以及wireshark抓包工具来分析服务器响应所返回的数据,通过多次实验可以发现,需要的数据均存在于字符串<ulclass=.ttab.e.ulfont_blackmarginleftlOmargintoplOfontl4tt><li>和字符串tttttt</span>nt,tttt<divclass=.showexpstyle=.color:#888888t.>之间,再截取这两个字符串作为标记来定位光标,可以得到结果前面的光标位置begin,以及结果的长度jbegin,最后通过substring(下转第300页)300上海电力学院点数分别减少至原来的67%和5l%.此外,在搜索峰值的过程中,由于基音频率分布在80500Hz之间,所以相关运算的峰值在16100点之间搜索即可.采用以上方法检测出声音1的基音频率为205.1282Hz(周期为4.8ms),声音2的基音频率为307.6923Hz(周期为3.25ms,.4结语本文利用信号的自相关运算实现了两个语音信号的基音周期检测.在检测过程中采用极性相关和峰值估计法,一方面可降低相关计算中乘法的计算量,另一方面也降低了进行自相关运算的点数,从而提高了基因周期检测的效率.这种极性相关和峰值估算的方法还可应用到信号的互相关峰值搜索过程中,使利用互相关运算对流量和速度等进行检浸4的系统具有更好的实时性.参考文献:1付青青,吴爱平.基于Matlab的语音信号自相关基音检测J.长江大学,2006,3(4):99101.2万永革.数字信号处理的MATLAB的实现M.北京:北京航空航天大学
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年消化内科克罗恩病诊治规范模拟考试答案及解析
- 2025年药物治疗原理及不良反应考核模拟试卷答案及解析
- 2025年全科医学工伤鉴定的程序规定模拟考试试卷答案及解析
- 2025年儿科感染性疾病诊断治疗考试卷答案及解析
- 2025年产科分娩镇痛技术操作规范与生产过程监护答案及解析
- 新质生产力社会应用案例
- 2025年急诊科立体定向穿刺术实操考试答案及解析
- 2025年放射科影像学常见异常体征识别考核答案及解析
- 税收服务新质生产力发展策略
- 2025年急诊医学重症抢救技术模拟考试卷答案及解析
- 新版(七步法案例)PFMEA
- 练平舌音和翘舌音的绕口令
- 01血涂片、红细胞形态PPT课件
- 高二年级开学学生大会年级主任的讲话[001]
- 校企合作讲座精品PPT课件
- 煤矿电缆与电缆敷设标准
- T∕CATCM 008-2019 阿胶质量规范
- 以内加减法口算100题可直接打印
- 增员-再从亮剑谈增员之道
- 锚杆锚索框架梁施工方案
- 医院食堂装修改造工程施工组织设计方案p
评论
0/150
提交评论