(管理科学与工程专业论文)Web挖掘在新兴技术产业化潜力分析中的应用研究.pdf_第1页
(管理科学与工程专业论文)Web挖掘在新兴技术产业化潜力分析中的应用研究.pdf_第2页
(管理科学与工程专业论文)Web挖掘在新兴技术产业化潜力分析中的应用研究.pdf_第3页
(管理科学与工程专业论文)Web挖掘在新兴技术产业化潜力分析中的应用研究.pdf_第4页
(管理科学与工程专业论文)Web挖掘在新兴技术产业化潜力分析中的应用研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(管理科学与工程专业论文)Web挖掘在新兴技术产业化潜力分析中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 当前我国专利技术的实施率、科技成果转化为商品并且取得规模效益的比 例、高新技术产业产值占工业总产值的比率都远远低于发达国家水平,对科技 资源的有效使用严重不足。而提高科技资源有效使用的关键,是正确选择具有 产业化潜力的技术。 目前对新兴技术潜力的评价体系,有主观方法和客观方法,各有优缺点, 但大都忽略了在新技术产业化评价中网络资源的利用。如今网络作为主导媒体 的地位已确立,其中蕴涵着大量的有效的各种公众评议意见。随着网络成为信 息传递的主要媒介,大量的组织和个人可以在线发布信息,网络提供了一个环 境,使许多不同影响领域的技术的相关现象可以得到综合的分析。如何从庞杂 的网络资源中发现聚集信号,如技术的追随者、关注者和在线社区等,提取隐形 知识进行知识管理,是非常重要的。w e b 挖掘技术为在技术评价中利用丰富的 自由公众网络资源创造了可能性。 本文首先叙述了在新兴技术产业潜力分析中使用w e b 挖掘技术的必要性、 适用性和可行性。在回顾了新兴技术产业化潜力分析研究的发展状况后,指出 w w w 信息的价值及公众评议的获取在技术评价中的重要作用,并说明w e b 挖掘 技术是如何适应这一需求的:可以找到新兴技术的利益相关者、统计出其分布、 发现其内部结构,并挖掘出公众对技术的评价意见。然后,列出了这一方法的 具体应用框架和分析工具。 本文设计的w e b 挖掘方法首先利用搜索引擎获取和技术相关的网页即源数 据,把这些网页看做是由链接关系结合成的整体,找到所有在线的利益相关者 和对技术感兴趣的团体一一后者有可能是技术产业化后的潜在消费者,可用来 进行新技术潜在市场的研究;找到所有在线的利益相关者和对技术感兴趣的团 体,统计利益相关者的分布:即在各个国家之间,或机构、所从事的职业的分布。 观察各群体的数量变化情况,利用社会网络分析法,分析相关网站的关系结构, 找到利益相关者组成的在线社团,区别其中处于“核心 、“边缘 和“外围 地位的人群,分辨处于信息交流中心的核心网站,分析网页内容,提取出公众 对技术的经济、道德、环境、社会、法律和政治等效益的意见,及不同群体的 公众对这些方面看法的区别。 最后,对w e b 挖掘在磁悬浮列车的产业潜力分析中的应用进行实证研究。 关键词w e b 挖掘;新兴技术产业化;公众评议;社会网络分析;磁悬浮 北京工业大学管理学硕士学位论文 a b s t r a c t t h ec u r r e n tc h i n e s er a t eo fp a t e n t si m p l e m e n t a t i o n , s c i e n t i f i ca n dt e c h n o l o g i c a l a c h i e v e m e n t st r a n s f o r m e di n t oc o m m o d i t i e sa n dr e c e i v e ds c a l em e r i t ,h i g h t e c h i n d u s t r i a lo u t p u tv a l u eo ft h et o t a li n d u s t r i a lo u t p u tv a l u ea r ef a rb e l o wt h el e v e lo f d e v e l o p e dc o u n t r i e s s c i e n t i f i ca n dt e c h n o l o g i c a lr e s o u r c e su t i l i z a t i o nw e r eg r o s s l y i n e f f e c t i v e t h ek e yt oe n h a n c ee f f e c t i v eu s eo ft h es c i e n t i f i ca n dt e c h n o l o g i c a l r e s o u r c e si st h er i g h tc h o i c ew i t ht h eh i g l li n d u s t r i a l i z a t i o np o t e n t i a lt e c h n o l o g y a tp r e s e n t ,t h ei n d u s t r i a l i z a t i o np o t e n t i a lo fe m e r g i n gt e c h n o l o g i e se v a l u a t i o n s y s t e mc o n t a i n ss u b j e c t i v em e t h o d sa n do b j e c t i v em e t h o d s ,e a c hw i t hi t so w n a d v a n t a g e sa n dd i s a d v a n t a g e s ,b u tm o s to ft h e mi g n o r e dt h ei n d u s t r i a l i z a t i o no ft h e u t i l i z a t i o no f 冈旷wr e s c o u r c e s n o wt h en e t w o r k sp o s i t i o na st h ed o m i n a n tm e d i ah a sb e e ne s t a b l i s h e d ,w h i c h c o n t a i n sal a r g en u m b e ro fe f f e c t i v ee v a l u a t i o no fv a r i o u sp u b l i co p i n i o n s b e c a u s e t h ew e bs e e m st op r o v i d ea ne n v i r o n m e n ti nw h i c ht e c h n o l o g yr e l a t e dp h e n o m e n a c a nb ea n a l y s i sa c r o s sm a n yd i f f e r e n ta r e a so fi n f l u e n c eb e c a u s eo ft h ew i d ev a r i e t y o fo r g a n i z a t i o n sa n di n d i v i d u a l st h a tc a np u b l i s ho n l i n e h o wt of o u n dt o g e t h e r s i g n a l sf r o mt h ec o m p l e xw e br e s o u r c e sw e r e s u c h 嬲t e c h n o l o g yf o l l o w e r s , c o n c e r n e dp e o p l e ,o n l i n ec o m m u n i t i e sa n ds oo n - a n de x t r a c th i d d e nk n o w l e d g ei s v e r yi m p o r t a n t t h eu s eo fw e bm i n i n gi nt e c h n o l o g ye v a l u a t i o nm a k e si tp o s s i b l e t ou t i l i z et h ea b 眦d a n tf r e ep u b l i cw w wr e s c o u c e s t h ep a p e rf i r s td e s c r i b e st h es e r v i c e a b i l i t y ,a p p l i c a b i l i t ya n df e a s i b i l i t yi nt h e i m p l i c a t i o no fw e bm i n i n go ne m e r g i n gt e c h n o l o g yi n d u s t r i a l i z a t i o na n a l y s i s b a s e d o nr e v i e w i n gt h ep r e s e n ts i t u a t i o no fe m e r g i n gt e c h n o l o g y p o t e n t i a le v a l u a t i o n m e t h o d s ,t h ea r t i c l ep o i n t so u tt h es i g n i f i c a n c eo fi n t e r n e ti n f o r m a t i o na n dp u b l i c o p i n i o na c q u i s i t i o n t h e nw ei l l u s t r a t eh o ww e bm i n gm a k e si t :w e bm i n gc a nf i n d t h es t a k e h o l d e r so ft e c h n o l o g y , s t a t i s t i ct h e i rd i s t r i b u t i o n ,f m dt h e i ri n n e rs t r u c t u r ea n d m i n i n gt h ep u b l i co p i n i o nt o w a r dt h et e c h n o l o g y t h ew e bm i n i n ga p p r o a c hd e s i g n e d h e r ei st or e t r i e v ew e bp a g e sr e l a t e dt op e n d i n gt e c h n o l o g ya n dt h e nt oe x t r a c t i n d i c a t i v ei n f o r m a t i o na b o u ts o c i a lc o n c e r na n do p i n i o no ne c o n o m y , e t h i c s , e n v i r o n m e n t ,l a wo rp o l i t i c a lp e r s p e c t i v e s s n ac a l ld i s c o v e rt h ec l i q u e sa n d c o h e s i v es u b g r o u p so ft h ew h o l en e t w o r k w e bl i n k a g ea n a l y s i sc o m b i n i n gs n ac a n i d e n t i f yt e c h n o l o g yr e l a t e do n l i n ec o m m u n i t i e sa n dg e n e r a t ei n f o r m a t i o na b o u t 栅c t l 鹏o ft h e s es i t so rs t a k e h o l d e r sa l t h o u g hl i n ki sav o l u n t a r ya c t i v i t ya n dt h el i n k a c c o u n tc o u n t sm a yb eu n r e l i a b l e t h es c a l ea n di t sc h a n g eo fc o m m u n i t i e sc a nb ea n i n d i c a t o r c o m b i n i n g s y s t e md y n a m i c s t e c h n o l o g yl i f e c y c l e t o p r e s u m e t h e a b s t r a c t t e c h n o l o g ym a t u r i t y t h ef u n c t i o nc o n c e p t c o r e a n d p r i m a r yc i r c l e , s e c o n d a r yc i r c l e i ns n ac a r th e i pd e c i s i o n - m a k e rr e c o g n i z et h er e l a t i o n s h i po f s t a k e h o l d e r i n f l u e n t i a lr a n ko ft h e mi sa l s oc a nb ec a l c u l a t e d 。砀e 耽6c o n t e n t a n a l y s i st oe a c hw e bs i t e sg r o u pr e s p e c t i v e l ym a yg e tt h es o c i a lc o n c e r na b o u ta t e c h n o l o g y a sd i s c u s s e d ,t h eg o a lc a nb eo n l yp a r t i a l l ya c h i e v e db e c a u s eo f b i a s e s i n h e r e n ti nw e bs o u r c e s s e c o n d l y , t h ea r t i c l el i s t st h ed e t a i lf l o wo ft h em e t h o da n d t o o l si na p p l i c a t i o n a tl a s t ,t h ea r t i c l ec a r r i e st h r o u g ha nd e m o n s t r a t i o nc i t i n gm a g l e vt r a i n t e c h n o l o g y k e yw o r d sw e bm i n g ;e m e r g i n gt e c h n o l o g yi n d u s t r i a l i z a t i o n ;p u b l i co p i n i o n ;s o c i a l n e t w o r ka n a l y s i s ;m a g l e vt r a i n i 论文报告提交e l 期2 q 鲤生且堂位授予日期 授予单位名称和地址 j 匕宝王些太堂j 匕塞直麴田匡垩压国! 嫂曼 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 签名拄雌日期:皇竺巡 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有 权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 虢牡串- 一名:鳓午吼垆 第1 章绪论 本章总列了本文的研究意义,即新技术产业化潜力评估的重要作用和意 义,和w e b 挖掘在新兴技术产业化评估中应用的必要性、适用性及可行性。首 先,对“新技术产业化”这一概念进行阐述,展示了我国新技术产业化现状, 回顾了新兴技术产业化潜力分析研究的发展状况,并指出w w w 信息的价值及“公 众评议”的获取在技术评价中的重要作用,并说明w e b 挖掘技术是如何适应这 一需求的:可以找到新兴技术的利益相关者、统计出其分布、发现其内部结构, 并挖掘出公众对技术的评价意见。然后是w e b 挖掘技术在新兴技术产业化潜力 评估中的具体应用框架、分析工具和技术路线,最后点出了研究的创新点和难 点。 1 1 问题的提出及研究意义 新兴技术是指建立在科学基础上的革新,它们可能创造一个新行业或者改 变某个老行业。例如,磁性材料具有记忆作用,这是科学发明,把磁性材料做 成磁性记忆圈,就是革新;计算机的发明,创造了计算机行业,晶体管、集成电 路的发明,形成了微电子产业。具体来讲,新兴技术( e m e r g i n gt e c h n o l o g i e s ) 是指: ( 1 ) 其( 技术) 知识在扩展,即不断发展的技术知识,如移动通信中的2 g 、 2 5 g 到3 g 。 ( 2 ) 还是原来的市场,但应用的产品在更新换代。 ( 3 ) 新市场正在发展或形成。技术是已经有的技术,但发现或开辟了新的 市场。如原来纸浆用于造纸,天经地义,现通过微波加热技术,制造环保的纸浆发 泡包装填充材料,以消除白色污染。通俗地讲,新兴技术是指那些新近甚至正在 发展的、对经济结构产生重大影响的高技术。在新兴技术中,目前研究最多的是 信息技术和生物技术。 新兴技术除了具有技术的一般特征之外,还具有一些明显的特征,这些特征 可以帮助我们加深对新兴技术的认识,同时也为我们有效地管理新兴技术提供 了重要基础。这些特征主要表现市场的不确定性、技术的不确定性和管理的不 确定性中。 科学技术产业化归根究底是经济与科技一体化,其核心即作为知识形态的 科学技术向物质形态的现实生产力转化的问题。我们不仅希望科技成果能成功 地转化为商品,而且更希望将商品经营成巨大的产业,对社会进步产生尽可能大 的推动,追求转化的最大效益。要想将新技术同其他要素结合,形成真正现实生 产力,关键的一步就是要在众多的新兴技术中选择具有产业化潜力的技术,从 政府到企业都需要对新兴技术进行产业化潜力的评估:政府需要最优化国家研 北京工业大学管理学硕士论文 发资金的分配,提高国家竞争力。企业在进行大型投资前需要辨别技术的产业 化机会和风险。 当前,我国自主创新技术的产业化现状不容乐观。据报道,我国每年取得科 技成果3 万多项,在生产中稳定使用且具有一定规模的不足2 0 ,而最后形成产 业的只有5 左右。我国科技成果转化为商品并且取得规模效益的比例为1 0 一1 5 ,远远低于发达国家6 0 9 6 - 8 0 的水平。高新技术产业产值仅占工业总产 值的8 左右,也大大低于发达国家的3 0 一4 0 的水平瞳3 。2 0 0 6 年教育部门公布 的统计数字表明,高校科技成果转化率约为1 0 ,5 年问全国高校专利申请量 1 8 1 3 7 项,专利授权量8 3 8 9 项,专利实施量1 9 1 0 项,专利实施量只占授权量 2 2 8 ,而全国平均水平约3 0 9 6 。科技对经济的贡献率远远低于发达国家,科技资 源浪费严重。 从一大片“普通科学”的嘈杂声中,如何才能发现有潜力的新兴技术的蛛丝 马迹呢? 挑战在于要认识到某些“动量”已经开始聚集在某个特定的技术周围, 领先技术也被看做是它们的技术追随者的出现物。科学和工程的价值可以通过追 随者的信号来衡量,如发现被引证、复制、模仿和应用的程度。从这个意义上讲, 引用专利和文献,竞争对手的行动等是明显信号。而知识网络、竞争情报及类似 发现或汇聚都是微弱信号,从细微处表明某个科学技术具有商业及产业潜力而且 独立分析已经认识到这种潜力1 。随着网络成为信息传递的主要媒介,大量的组 织和个人可以在线发布信息,网络提供了一个环境,使许多不同影响领域的技术 的相关现象可以得到综合的分析。如何从庞杂的网络资源中发现聚集信号,如技 术的追随者、关注者和在线社区等,提取隐形知识进行知识管理,是非常重要的。 w e b 挖掘技术为在技术评价中利用丰富的自由公众网络资源创造了可能性。 当我们评价一个新兴技术的未来市场时,难点在于如何确定产品的需求, 判断潜在市场。当产品处于初始阶段且产品概念还不明确时,分析主要用户和 潜在需求很困难也是特别重要的。此时w e b 挖掘可以用来发现利益相关者,他 们了解此技术且受其影响。这个方法可以用来发现新技术特殊的使用群体及对 这个技术感兴趣的团体,他们都有可能是潜在的消费者,是潜在市场不可忽视 的重要部分。他们的意见也是产品和技术走向产业化应该清楚的,通过他们的 反馈有利于发现技术自身优点,弥补技术的缺陷,从而获得更广大的市场空间。 我们在研究中发现在新兴技术产业化潜力分析中“公众评议”是非常重要 的,但一直被淹没在专家评议和同行评议中。事实上在后续的实证研究中,通 过w e b 挖掘方法也证实了公众的意见对技术的产业化及发展起着非常重要的作 用。我们必须区分两类技术评价h 3 :技术效应、经济效应的评价与社会价值的 评估。公众评议主要是指公众对于科学研究所带来的社会后果、科学研究者们 的职业伦理甚至科学研究本身的一些结论和方法进行评议;公众评议也会对影 2 第1 苹绪论 响科学研究的一些外部因素例如科研体制、权力干预等进行评论,是以公众为 主体的一种非制度化的参与方式,通过公众的舆论力量对科学研究的相关研究 进行监督和评议嘲。“同行评议、“专家评议”的有效性是建立在这样的前 提之上的:科学家共同体( 同行) 能遵循科学共同体通行准则;公正行使自己的 合法权力;客观评价同行的研究方案以及研究结果。另外,由于客观原因,对 于科学研究中的很多“事实 ,同行也未必能“评议”出来。随着科学研究的 不断分工,“同行”、“专家”们对于某个研究发现或结论也未必能达成共识。 公众评议又是对制度评议的一个有力补充,是在充分尊重和客观评价科研工作 者的基础上的“再评议,这实际上也完善了科学研究领域的自主性。有学者 曾这样感慨到:“这是公众介入科技活动的时代,以前我们普遍感到科技事业应 当完全由科技家们去完成,而现在这种感觉正在被所谓公众介入科技的理论所 取代,公众对科学的态度,已成为科学技术一个基本方面。” 网络作为主导媒体的地位已确立,其中蕴涵着大量的有效的各种公众评议 意见。2 0 0 7 年1 1 月1 3 日,联合国互联网管理论坛公布:网民总数已到1 2 亿 人嘲。中国互联网络信息中心7 月8 日发布的第二十次中国互联网络发展状 况统计报告显示,网民结构总体呈现年纪轻、学历高、收入低三大特点,高 学历网民比例逐步下降,学历较低人群逐步增多,这意味着互联网在中国未来 将逐渐成为普通民众了解世界的平台口1 。因此我们可以说,我们应充分利用网 络资源为我们的技术产业化潜力评价提供依据。正是由于因特网庞大的规模, 从中提取有用的信息进而转化成对我们有应用价值的信息和知识变地非常困 难。所以我们如何发现与所研究技术相关的公众群体,并获取他们的意见与看 法,是很重要的问题。w e b 挖掘为解决这个问题指出了一条道路。 1 2 国内外相关的新兴技术产业化潜力分析现状 传统的产业化潜力主观评价方法,建立了一套关于技术、社会效益法律状态、 经济效益风险等因素的评价指标体系和综合评价模型。由专家对技术项目进行评 价,充分利用了专家知识、经验和判断等智力资源。如2 0 0 4 年杨锁强对“中高温 太阳能有机工质高效热发电技术及装置”项目的产业化评价哺1 等,获得了良好的 效果。 信息计量学作为客观定量方法克服了主观评价法的一些缺点一一如专家的 个人偏见、在有关专业领域知识的局限和专家选取不当等因素,应用基于文献的 分析法和专利分析法,研究科技领域的发展模式和方向,判断技术的生长阶段。 但是也有一些研究指出了信息计量学的不足:例如,不是所有的r d 活动都公 开发表或申请专利;技术发展的很多活动不能适时地出现在期刊、会议、论文或 专利中;每个机构有不同的专利申请策略:对出版物数量的统计不能区分它们质 量的高低,而且仍没有对出版物完美的分类和索引系统等咖n 町。技术预测是产 3 北京工业大学管理学硕士论文 业化评估的方法之一,客观方法有增长曲线法( 线形回归拟合) ,趋势外推法, 替代曲线法等。他们是建立在共同的假定前提下,即技术过去的增长规律将继续 在今后发挥作用,来预测技术未来发展趋势。然而我们研究的产业化是应能产生 重大经济或社会效益的技术,与市场前景或公众需求( 对于公益技术而言) 有极 大关系,只从技术成熟度考虑是不够的。 针对目前理论研究中存在的上述问题,黄鲁成提出了综合应用主客观判断法 评判新技术产业化潜力的一般性方法。在这个框架里,首先应用主观判断工具一 一名义小组讨论、a h p 、德尔菲调查和利益相关者分析,对大量新技术进行初选; 然后应用客观判断工具_ w e b 挖掘、技术预测、内容分析、和专利分析,对初 选的新技术从客观事实方面进行佐证【1 1 】。 t e l l i s c o t tu 纠做出将w e b 挖掘应用于技术评估的先驱性工作。把w e b 挖掘 应用于纳米技术未来分析f t a ( f u t u r eo r i e n t e dt e c h n o l o g ya n a l y s e s ) ,利用 网络爬虫和社会网络分析法,识别纳米技术目前在线的利益相关者,并对他们的 链接关系数据进行社会网络分析,找到了技术的在线社区,对利益相关者进行了 分类:博客、商业和评论、发展机构、政府和科研组织等。并指出了技术相关网 站中的核心、边缘及外围。论述了此研究方法在技术评估中的有效性,并指出了 进一步研究的方向。 a l m i n du 刮认为,信息计量方法所使用的手段完全可以应用到万维网上,只 不过把万维网看作引文网络,传统的引文由w e b 页面所取代。因为网页的链接机 制与文献计量学研究的引文机制有许多相似之处。而且通过链接分析法可以计算 网络影响因子,从而评价出某一科学领域最有影响和最具权威的站点。a g u i l l o n 4 1 对全球9 3 3 0 个科研机构的网站进行搜索、汇编和分析,对这些机构在科研中的交 流和影响力进行了评价。发现通过w e b 挖掘得到的科研机构排序和通过文献计量 学指标得到的次序有惊人的相关性,证明通过这种方法可以反映技术研究机构的 地位,更多地了解发展中国家情况,并可以提高s c i 的排序能力。 比起页面链接,网页的内容可以传递更多实质性内容。巴西管理和战略研究 中心n 5 1 对纳米技术预测的研究中,把w e b 挖掘作为初始阶段,从整个i n t e r n e t 中 提取科学论文和专利文献,并进行了内容分析,其后进行了定性分析,请专家打 分,得出纳米技术的发展趋势和科学地图,指导整个国家的科技研发政策。 朱东华n 6 1 通过对结构化数据库和万维网中数据的收集和文本分析,生成某 专项技术领域的科研成果动态监测报告。还通过对目前科研管理存在的问题的分 析,提出科技监测方法,即将数据挖掘等计算机前沿技术引入科研管理领域,发展 科研管理的数据分析基础。指出了科技监测对实现科研管理创新,促进科研管理 决策科学化,提升科研管理水平的重大现实意义。并在探讨科技监测方法的基础 上,给出了在纳米技术领域的实证分析。n 铂此外,通过对网上文献信息的计量分 4 第l 苹绪论 析,可以对著者分布规律、文献分散规律、文献增长规律和文献老化规律、文献 引文分析进行研究n 引。 要获取网络公众对技术的评价意见,技术评估单位也可以建立技术相关网 站,向互联网用户直接征集意见,如通过发放网上调查问卷的形式。虽然网络 门户可以通过建立有效的链接提高的网页中心度,但是网站规模对于整个互联 网来说,覆盖率还是有限的。而w e b 挖掘的优势在于,其网络信息提取技术可 以利用网络爬虫发现并提取互联网中现有的对技术的评价,并通过网页分类技 术,根据内容中相关的技术产业化指标对有关网站进行分类。 在技术的利益相关者分析方面,以前的分析和评价很少关注利益相关者之 间的关系结构,多侧重于内容的分析,这里我们应用社会网络分析法,分析了 技术所有利益相关者之间的关系结构,分辨出技术相关公众的社会网络。根据 类别对网页分配相应的话语权重,还要通过分析不同类别网页数量及变化,辅 助判断技术所处的生命周期。随着网页分类聚类技术发展以及新技术话题跟踪 检测技术( t d t ) 的出现,w e b 挖掘无疑是从庞大的万维网中辨别与技术相关的 公众团体并获取、分析他们意见的适用工具。 总之,w e b 挖掘对产业化潜力评价可以产生什么价值? 一方面它较好解决了 “主观性 的问题,因为它是建立在现实社会活动实践基础上的一种判断,是一 种客观的评价方法;另一方面,也较好解决了“少数性”的问题,因为它是对海 量自由公众网络信息资源的知识规律提取和判断。 w e b 挖掘作为评价技术商业化潜力一个有效的客观定量方法,永远不能取 代专家经验知识的作用,但可以用来为选定专家提供参考、为技术评估中的专家 评价提供可能性和指标,并对照专家评价结果进行提醒检验。最终的评价结果应 该是主客观相结合的产物。 1 3 本文的研究方法及技术路线 本文提出了一个新的w e b 挖掘在技术产业化潜力评估中具体可行的综合应 用框架,其中综合运用了网络爬虫、社会网络分析法、w e b 结构( 链接) 分析和 w e b 内容分析。 1 3 1 研究方法 本文设计的w e b 挖掘方法首先利用搜索引擎获取和技术相关的网页即源数 据,把这些网页看做是由链接关系结合成的整体,找到所有在线的利益相关者 和对技术感兴趣的团体一一后者有可能是技术产业化后的潜在消费者,可用来 进行新技术潜在市场的研究; 利用u r l ( 统一资源定位器) 的域名系统,统计利益相关者的分布:在各 个国家之间,或机构、所从事的职业的分布。观察各群体的数量变化情况,结合 北京工业大学管理学硕士论文 技术成熟度分析法,确定技术在生命曲线中所处的位置,技术产业化的时机是 否成熟。 利用社会网络分析法,分析相关网站的关系结构。通过派系和集聚性表达, 找到利益相关者组成的在线社团;通过中心性、中介性等描述,区别其中处于 “核心 、“边缘 和“外围”地位的人群。各社团的规模及规模的变化可以结 合系统动力学,假定技术的成熟度。中心性和中介性高的站点可以被定位为权 威网站,在各社团里处于信息交流的中心或因其权威受到其它站点的推崇,对 其它站点的影响力是很大的。重点分析它们的内容可起到事半功倍的作用。可 以对这些站点进行动态监测,定期自动下载其内容。 分析网页内容,提取出公众对技术的经济、道德、环境、社会、法律和政 治等效益的意见,及不同群体的公众对这些方面看法的区别。 作为专家主观判断的补充及检验。它有自身的局限性,即只能评估在线的 利益相关者。然而它的优点在于可以利用w w w 网庞大的覆盖能力而无须依赖相 关利益群体的协作。技术上的优势是网络文件都是电子形式,因此对于自动分 析是可行的。 1 3 2 技术路线 见图1 - 1 1 4 创新点及难点 1 4 1 创新点 1 在技术产业化潜力分析中引入网络信息资源的利用。 2 关注“公众评议”的重要作用,公众评议相对于专家评议和同行评议, 对技术的评价有不可忽略的引导和监督作用。 3 引入社会网络分析法对利益相关者和潜在消费者的结构进行分析。 1 4 2 难点 1 数据的搜集整理:因为网络上的数据结构化不强,半结构化和无结构化 数据占很大部分,还有音频和视频等多媒体数据,因此搜集和整理数据并进行 格式转换,使其能被应用软件c l e m e n t i n e 识别,是比较耗时耗力的。 2 计算机编程,实现各个步骤的自动化:因为网络资源数据量庞大,依靠 人工实现对w w w 网中信息的覆盖是几乎不可能的,所以计算机编程技术在这 里很重要。而前人没有这种方法的成熟应用,所以要针对各个步骤各寻找合适 的方法,并进行数据格式转换和衔接,是一个难题。 6 第1 章绪论 图1 - 1 技术路线 f i g u r e l 。1m e t h o df r a m e w o r k 7 北京工业大学管理学硕士论文 第2 章w e b 挖掘方法 本章对w e b 挖掘技术的概念、步骤、分类和难点进行了综合的叙述。w e b 挖掘技术是数据挖掘技术与w e b 相结合的产物,是对网络中潜藏的知识和规律 进行提取的过程。本文利用w e b 挖掘技术对新兴技术的相关网页进行分析,提 取在线的和新兴技术相关的隐性知识。w e b 挖掘技术根据分析的网络数据的不 同可分为三类,w e b 内容挖掘、w e b 结构挖掘和w e b 日志挖掘。本文重点应用了 w e b 内容挖掘以获取公众意见,应用w e b 结构挖掘获取新兴技术的利益相关者 的结构关系。最后对数据挖掘工具c l e m e n t i n e 进行了介绍。 2 1w e b 挖掘简介 随着i n t e r n e t 的快速发展与广泛应用,网络上的信息量几乎每天以百万 的速度增长:又由于它的分布、动态、异质、复杂和开放性及海量数据的特点, 为w e b 挖掘提供了丰富的数据资源和研究课题。人们对于从大量的网络信息中 获得自己感兴趣信息的研究也越来越深入,并取得一定的成果。特别是近几年 w e b 挖掘这个研究领域也得到了越来越多的关注。 2 1 1w e b 挖掘含义 2 1 1 1w e b 挖掘含义w e b 数据挖掘是数据挖掘技术与w e b 相结合的产物,是 一项综合技术,是从w w w 资源上抽取信息( 或知识) 的过程,是对w e b 资源中蕴涵 的、感兴趣的、未知的、有潜在应用价值的模式的提取。它反复使用多种数据 挖掘算法,从观测数据中确定模式或合理模型,也是将数据挖掘技术和理论应用 于对w w w 资源进行挖掘的一个新兴的研究领域。 数据挖掘作为知识发现过程的一个特定步骤,是对数据及数据间关系进行 考察和建模的方法集,应用一系列技术从大量数据中提取人们感兴趣的、隐含 的、潜在有用的信息和知识,表示为概念( c o n c e p t s ) 、规则( r u l e s ) 、规律 ( r e g u l a r i t i e s ) 、模式( p a t t e r n s ) 等形式n 引。w e b 挖掘是从w e b 资源上抽取信 息或知识的过程,它是将传统的数据挖掘的思想和方法应用于w e b ,从与w e b 文档和w e b 活动中抽取感兴趣的、潜在的、有用的模式和隐藏信息呦1 乜。 2 1 1 2w e b 挖掘的步骤 ( 1 ) 资源发现,从w e b 文档中获取信息; ( 2 ) 信息选择和预处理,从获得的特定的w e b 资源中自动进行选择和预处 理: ( 3 ) 概括化,即从单个的w e b 站点以及多个站点之间发现普遍的模式; 第2 章w e b 挖掘方法 ( 4 ) 分析,对挖掘出的模式进行确认或者解释。 2 1 1 3w e b 挖掘的难点由于w e b 上信息的特点,对w e b 进行有效的信息挖 掘、抽取和发现有用的信息具有很大的挑战,同时也面l 临很多的问题:由于传统 的基于关键字检索的搜索引擎方式的局限,再加上网页自身的结构特征,使得 w e b 挖掘比传统的数据挖掘更加复杂;w e b 文档无分类索引,无任何的排列次 序。半结构化数据的复杂程度要高于普通的文本文档,数据结构隐含模式的信 息量大,模式变化快,增加了w e b 挖掘的困难程度;对有用的信息还停留在利 用各种搜索引擎进行查找,导致了检索结果质量差、召回率和准确率低,且更 新周期长;w e b 是异质、分布、动态的信息源。数据更新快,无固定的模式, 现有的搜索引擎不能发现未知信息和有用的模式,网络信息的利用率低:不能 为用户提供个性化的信息检索和查询服务。 2 1 2w e b 挖掘的分类 w e b 上的数据主要包括呦1 : ( 1 ) w e b 页面:包含文本和多媒体信息( 包括图像、语音、图片) ,现有的w e b 挖掘方法大都是针对w e b 页面开展的。 ( 2 ) 服务器日志数据:浏览w e b 服务器时,产生三种类型的日志文件 s e r v e r l 0 9 5 ,e r r o r1 0 9 5 和c o o k i el o g s ,用于记录用户访问的基本情况。 ( 3 ) w e b 页面超链接关系:描述了文档之间的联系,同时为用户浏览w e b 站 点提供了可用的路径。 ( 4 ) 在线市场数据:这是传统的关系数据库结构数据,如客户登记信息等, 存储电子商务信息。将它们和访问日志集成,有助于更好地提高w e b 挖掘的准 确度。 一般地,根据w e b 挖掘研究的对象,可以将w e b 挖掘分为三类:w e b 内容挖 掘( w e bc o n t e n tm i n i n g ) 、w e b 结构挖掘( w e bs t r u e t u r em i n i n g ) 和w e b 使用 记录挖掘( w e bu s a g em i n i n g ) ,如图2 - 1 所示,其中w e b 内容挖掘和w e b 使用 记录挖掘是w e b 挖掘的两个主要方面。 w e b 内容挖掘就是从w e b 页面内容或其描述中进行挖掘,进而抽取知识的 过程。它分为w e b 文本挖掘和w e b 多媒体挖掘,针对的对象分别是w e b 文本信 息和w e b 多媒体信息。w e b 文本挖掘可以对w e b 上大量文档集合的内容进行关 联分析、总结、分类、聚类,以及利用w e b 文档进行趋势预测等。其中,w e b 页面分类和聚类w e b 内容挖掘的重点内容。w e b 页面的分类是根据页面的不同 特征,将其划归为事先已经建立起来的不同的类中。w e b 页面的聚类是指在没 有给定主题类别的情况下,将w e b 页面集合聚成若干个簇,要求同一簇的页面 内容相似性尽可能大,而簇间相似度尽可能小。 北京工业大学管理学硕士论文 图2 1w e b 挖掘的分类图 f i g u r e 2 。1 w e bm i n gc l a s s i f i c a t i o n w e b 访问信息挖掘就是对用户访问w e b 时在服务器留下的访问记录( 也即日 志文件) 进行挖掘,即对用户访问w e b 站点的存取方式进行挖掘,以发现用户的 浏览模式、相似用户群体、频繁路径、页面的访问频率等知识。在用户浏览式 分析中主要包括了针对用户群的一般的访问模式追踪和针对单个用户的个性化 使用记录追踪。 w e b 结构挖掘就是从w w w 的组织结构、w e b 页面的超链结构、w e b 页面内部 结构和u r l 的目录路径结构中进行挖掘,从中推导出隐藏的有价值的知识。由 于文档之间的互连,w w w 能够提供除文档内容之外的有用信息。利用这些信息, 可以对页面进行排序,发现重要的页面。b r i n 等人提出用p a g e - r e r n a k 方法来 发现“权威”页面,其基本思想是:一个页面被多次引用,则这个页面很可能是 重要的:一个页面尽管没有被多次引用,但被一个重要页面引用,则这个页面很 可能也是重要的。w e b 在逻辑上可以用有向图表示出来,页面对应图中的点, 超级链接对应图中的边。通过把w e b 表示为有向图,可以得到从一个站点的主 页到它的任意一个顶点的最短路径,r o b o t 沿最短路径浏览w e b 站点,就可以 较小的代价发现较多的文档。s p e r t u s 对w e b 页面的内部结构和u r l 做了研究 并提出一些启发式规则,用于收索新页面和自动索引。挖掘得到的知识模式可 以用来改进w e b 站点的设计及组织结构。 2 2w e b 文本挖掘 以w e b 文本文档为对象的文本挖掘被称为是w e b 文本挖掘。w e b 文本挖掘 属于w e b 内容挖掘的范畴,可以对w e b 上大量文档集合的内容进行文本检索、 概括、分类、聚类、关联分析、趋势预测和网络导航等。 w e b 文本挖掘就是从w e b 文档和w e b 活动中发现、抽取感兴趣的潜在的有 第2 荦w e b 挖掘万法 用模式和隐藏的信息的过程。w e b 文本挖掘和通常的平面文本挖掘有类似之处, 但是,w e b 文档中的标记给文档提供了额外的信息,可以借此提高w e b 文本挖 掘的性能,w e b 文本挖掘是文本挖掘的主要研究内容。w e b 文本挖掘可以对w e b 文档集合的内容进行总结、分类、聚类、关联分析以及趋势预测等。w e b 文本 挖掘是从数据挖掘发展而来,但是它同传统的数据挖掘相比又有许多独特之处。 首先,w e b 文本挖掘的对象是海量、异构、分布的w e b 文本。其次,w e b 在逻 辑上是一个由文档集合超链接构成的图,因此,w e b 文本挖掘所得到的模式可 能是关于w e b 内容的,也可能是关于w e b 结构的。由于w e b 文本是一个半结构 化或无结构化的,且缺乏机器所能理解的语义,从而使有些数据挖掘技术并不 适用于w e b 挖掘。因而,开发新的w e b 文本挖掘技术以及对w e b 文本进行预处 理,以提取该文本的特征,便成为w e b 文本挖掘研究的重点。 文本预处理 知识 l 模式 w b b 1 ;: 建立特征集 j 的学 = 刊质量评价b i 知识测试 1 文本集 jl 习和 、7 提取 分词词典特征集提取 图2 2w e b 文本挖掘系统框架 f i g u r e 2 2w e bc o n t e n tm i n i n gf r a m w o r k 图2 - 2 是一个w e b 文本挖掘系统框架,首先从i n t e r n e t 上抓取w e b 文本 形成w e b 文件集,对其进行预处理和分词后,再对挖掘对象建立其特征表示, w e b 文本挖掘对象通常是一组h t m l 或x m l 格式的文档集,这样的挖掘对象缺乏 像关系数据库中数据的组织规整性,因此要将这些文档转化成一种类似关系数 据库中记录的较规整且能反映文档内容特征的表示,一般采用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论