账号:
密码:
最新动态
产业快讯
CTIMES / 文章 /
资料挖掘于网路上的应用
 

【作者: 洪哲倫】2001年01月01日 星期一

浏览人次:【3489】

资料挖掘(Data Mining)是用来找出在庞大资料库中隐藏的有用资讯,而且资料电子化的程度越高越好。网路上的资料可以说是电子化最高的资料。这些大量的资料都已经储存在电脑中,非常容易拿来做资料挖掘。近年来网路的蓬勃发展以及电子商务的兴起,提供了网页挖掘一个很大的应用空间,而网路上的商机,也同样可以透过网页挖掘(Web Mining)这样的技术来增加利润。网页挖掘可以挖掘出网路使用者的各种习性,比如上网购物者的习性。应用这些找出的资讯将对于网站经营有很大的帮助。


强化搜寻引擎网站的应用

网页挖掘根据应用大致上可分为二类:网页内容挖掘(Web Content Mining) 和网页使用挖掘(Web Usage Mining)。网页内容挖掘是根据网页本身的内容做资料挖掘。所谓网页内容包含网页中的文字、超连结、网页所在的目录结构、网页浏览者输入的资料、网页本身大小均是。其应用的例子有:分析网站内容、加强搜寻引擎能力等等。


目前较著名的几个搜寻引擎网站,都有大量的人去使用。在这些搜寻引擎网站的背后各有不同的技术,像Yahoo!这种网站则是透过人工的方式将网站内容做分类,并非完全使用自动化方式产生。比如将其分类为「电脑」、「生活」、「学术机关」...等等。而有些搜寻引擎网站则采用网页的标题、关键字来找寻的,如Lycos。这种方式是当使用者输入关键字如「windows」,搜寻引擎会去找出标题或其关键字有「windows」的网站。


选择太多反而无从选择

另一种为我们所知强大的功能是全文检索,这种技术对于找寻资料有更多的选择。这类网站是自动化的主动到各网站去抓取网页资料,再传回来放入资料库中。在这方面如AltaVista,All the Web (http://www.alltheweb.com/)都是全文检索的搜寻引擎网站。不过也因为太多选择了,往往无从选择,比如使用者输入关键字「news」时就会去找出内容文字有「news」的网页,这会找出相当庞大的符合条件笔数,以AltaVista来说就可能找出7千多万笔,假设我们只是想看看新闻网站,那么,这几千万笔中可能只有极少数是我们要的,其他都是多余的,这种搜寻结果往往不能满足人们所需。就算不是全文检索的方式而是前述以标题或人工分类方式,如果输入的关键字太常被用到,一样会找出太多的资料。


这也是目前搜寻引擎开发者所头痛的问题。所以搜寻引擎网站如果运用资料挖掘的技术,可以收集使用者输入关键字,再加以做关联法则的资料挖掘。因此搜寻引擎网站可以收集使用者输入的关键字,以关联法则的方式,找出那些关键字的组合最为频繁,然后将这些资讯提供给较无经验的使用者。


现在我们来探讨有关网页架构资讯的挖掘。这是取网页中的文字、超连结、以及其他网页属性来做资料挖掘。主要用途在于分析网页,从中找出一些隐藏的资讯。比如可以分析某一种类的网站具有何种特征。就网页本身的内容来说,具有很多属性,以下列举二个例子说明:


(1) 超连结:超连结是一个非常值得做为挖掘的属性。通常网页的超连结代表着跟该网页有关联性存在,不只在对外的超连结,对内的超连结也可显示出一些讯息。 (图一)是Yahoo!的超连结结构,从该内部网站的超连结关系结构可以发现:


《图一 AltaVista,All the Web搜索引擎网站》
《图一 AltaVista,All the Web搜索引擎网站》

1.Computer Science 在Yahoo搜寻网站分类中是属于Science类;


2.Medicine 同时被归类属于Health 及Science类别下。


这些分类方法是人为产生的,不过可以由电脑去分析了解其分类方法。除此之外连结的网址也是具有资讯在里面的,从超连结中的目录架构也可看出各网页间内容的关系。比如/Science 和/Science /Computer_Science 这两个目录架构看来,/Science /Computer_Science的内容应跟/Science有关且范围较小。


(2)网页编排格式,许多网页会根据其内容的特性呈现出相同编排方式。比如在介绍个人资料网页通常会有固定的某些字(例如姓名、兴趣),且可能有个人照片、电子信箱等。又如介绍某主题的主网页通常会在最上方有比较大的标题文字。


其实在网站中光是网页文字就有很多资讯可以挖掘了。对于挖掘文字这方面的应​​用有人将其归类为文字挖掘(Text Mining),文字挖掘主要处理字元型资料。一般要解决的问题是发现两个主体(可能是人或事)之间是否有关联性?是什么样的关联性?特别是在资讯网路化时代,我们使用传统的方法几乎无法处理或阅读整个资料库。同时,因为资料库中存着大量无用和多余的资讯,往往使我们能够搜寻找到的资讯与所含的总资讯量相比下非常小。因此,如何去芜存菁,并迅速、准确以及适量地找到我们所需资讯,同时能够找出资讯与资讯之间的关联是文字挖掘的主要工作。 (图二)


《图二 Yahoo!的超链接结构图》
《图二 Yahoo!的超链接结构图》

网页使用挖掘这种技术可以挖掘并分析浏览者的行为。以下介绍四种网页使用挖掘的实际应用方向:


电子商务

现今电子商务市场被认为是一潜在无限商机的大饼,许多企业都将其商业交易行为扩充到网际网路上,希望能透过这个开放的空间争取到庞大的商业利润,因此如何经营商业网站成为很重要的关键。分析进站参观及购物的浏览者之行为,可以提供网站经营者很好的决策参考,而找出浏览者经常行走的路径可以从中发现有用的资讯,例如:有一条浏览路径发生频率很高,进一步分析行走此路径的目地是为了观看A产品的相关讯息,那么可以考虑在首页加强A产品的广告宣传以增加购买人数。


网站设计

管理一个具有规模的网站不是一件容易的事。如何去完整架构该网站,使得网路浏览者对于浏览该网站产生更大的兴趣,是很重要的课题。一般说来网站都会尽可能把最吸引人的网页放在最前头让浏览者一进入就能被其中的资讯所吸引而驻留该站,这就如同报纸的头版新闻的功能是一样的。


另外,网站内容的编排非常重要。一个常被浏览的网页需要好几次超连结才能到达是很差劲的编排方式。如何让浏览者能轻易在网站中浏览到他们想看的东西,对于网站的受欢迎程度具有很大的关联性。也因此,网站必须不断的改进,使其架构保持在一良好的状况。透过网页挖掘技术可以依照造访人次分析、访客来源分析、以及访客触击分析等等,分析出网站正确触击总数及占所有触击数、网站错误触击总数及占所有触击数、网页发生错误触击之次数、访客浏览网页时找不到档案的次数之间的关系,进而掌握网路浏览者的动态,来改良网站架构和内容。


网路教学

除了在商业上的应用,在教学网站方面,网页使用挖掘一样可以提供有用的参考资讯,教学网页与传统教学方法之间,存在很大的差别是在于老师无法直接与学生面对面教学,因此在教学方式的成效上就必须以不同的方式来评量。找出学生在学习网页中经常发生的行走网页过程,可以了解学生的学习状况,进一步提升网路教学的效果。因此在庞大的资料笔数中,依据每笔资料中所记录的行走路径去挖掘出对决策有用的路径走法模式,是一门重要的技术。


网路广告

目前各网站最大的金钱来源应该就属广告的收入了。然而在网页上数个广告除了广告图案外观的炫丽与否之外,广告的位置与排列顺序其实对广告的效果也会对广告的效益有很大的影响。运用资料挖掘的技术可以用来分析出网路广告在不同的时间不同的使用者登入,它所置放的位置以及顺序对广告本身的效益有什么关联。


结语

网路可以为我们带来无限的商机,但是商机是要靠我们自己去创造,这个让我们创造商机的工具就是资料挖掘。这几个月来,我们可以看见多少电子商务的网路公司从盛而衰,网路的未来是我们不可预测的,但是资讯的掌握可以让我们在迅速变化的网路世界中,找到自己的方向,存活在这个刺激多变的科技时代。


(作者为网眼科技技术顾问,网眼科技为网路市场资讯分析系统专业公司)


相关文章
从企业知识入口网站做起
企业入口网站 网络时代的优势
行云流水的快板独奏曲 - 着陆网页
网路业何时转春天
热得烫手的信息技术 - Data Mining
comments powered by Disqus
相关讨论
  相关新闻
» 台达推出5G ORAN小型基地台 实现智慧工厂整合AI应用
» 欧洲航太技术展在德国盛大展开,全球吸睛 镭洋推出卫星通讯整合方案,目标抢占庞大的欧洲卫星商机
» 经济部促成3GPP大会来台争话语权 国内外大厂共商5G/6G新一代技术标准
» 经济部支持跨国研发有成 台欧双方分享B5G~6G规划
» AR扩增实境应用新革命,Macnica Galaxy联手TeamViewer打造安全、效率、革命的远端协作系统


刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2024 远播信息股份有限公司版权所有 Powered by O3  v3.20.1.HK8660FYQ9GSTACUK4
地址:台北数位产业园区(digiBlock Taipei) 103台北市大同区承德路三段287-2号A栋204室
电话 (02)2585-5526 #0 转接至总机 /  E-Mail: webmaster@ctimes.com.tw