账号:
密码:
最新动态
产业快讯
CTIMES / 文章 /
拥有惊人预测能力的Data Mining
 

【作者: 程裕翔】2004年01月15日 星期四

浏览人次:【7436】

数据探勘(Data Mining)所涵盖的意思为「从大型和复杂的数据库中抽取出拥有预测性的隐藏数据」,目前许多企业纷纷开始尝试着使用这项技术。Data Mining可以让企业公司轻易地找到有用的数据,也是一项省时省力的技术。



Data Mining简单说起来,是一个能够预测未来的趋势或行为的发展,让企业能够占到先机,及启动知识的一个工具。Data Mining最大的功用,是在于能够自动地将数据库里过去的有用数据汇集起来,并成为一个个组合(Patterns);而这些组合会让系统有效率地预测一些未来所发生的状况,如此也可使企业有个方向依循,并做出正确的判断,而这些预测所得的结果往往都会令人感到惊奇不已。



Data Mining更可以安装在新的产品或系统里,并加强这些设备的效能。



当把Data Mining安装在主从式架构的系统或是丛集里,它能够自动分析大型数据库里的复杂数据,并回答相关的问题,如「哪一个客户最有可能响应我的广告信件,为什么?」等诸如此类的问题。



Data Mining所依靠的技术演化


虽然Data Mining的推出已经有几年的历史了,但最近才开始渐渐受到重视。Data Mining是由许多数据库的技术演变而来,一直到了90年代,这项技术才真正地被Usama Fayyad推了出来。Data Mining并不是凭空出现的系统,而是经过三个过程演化而来,即传统统计学、人工智能(Artificial Intelligence,A.I.),及机器自我学习功能(Machine Learning),以下就简单地介绍三个过程。



传统统计学


传统统计学可以说是Data Mining的根源,假如没有传统统计学的出现,那么Data Mining便不可能出现。传统统计学涵盖了几个重要的观念,如回溯分析学、标准分配计算、标准偏差计算、标准变化计算、分辨分析学、丛集分析学,以及可靠的间隔分析学等。这些观念不但造成日后进阶统计学的出现,更重要的是,Data Mining的核心工具和技术都是以传统统计学做为其依据。



A.I.


A.I.是Data Mining演化的第二个过程,不过A.I.与统计学的角度并不一样。A.I.是以模仿人类的行为来计算出统计方面的问题,但因需要大量的计算机处理资源,所以这项技术真正开始大量应用与发展,应是在1980年以后。目前A.I.的技术已经应用到一些高阶的产品,例如关联性链接的数据库系统(Relational Database Management Systems,RDBMS)



机器自我学习功能


机器自我学习功能简单来说,就是统计学与A.I.的结合。不过由于A.I.的成本昂贵,且技术不甚纯熟,相形之下,机器自我学习的功能就显得有用许多。机器自我学习的功能比A.I.还多了一份优点,因为A.I.是需要被教导才会有成长的功能。机器自我学习功能则不一样,它是利用过去的数据与数据来做自我的成长,尔后便能够累积这些知识而做出令人讶异的分析。目前的Data Mining就是利用机器自我学习的功能来做为基础。








表一 数据分析技术的演变过程 <数据源:http://www.thearling.com/index.htm#wps>






































数据分析技术的演变过程


商业疑问范例


解决方案


解决方案的技术


数据搜集 (1960s


我想知道公司三年来的总收入是多少?


计算机、磁带、软、硬盘


回寻档案、提供简易式数据


数据查询 (1980s


我想知道公司于前年五月在美国加州所贩卖的物品是什么?


关联性链接的数据库、架构性查询语言(Structure


Query LanguageSQL)、ODBC


回寻档案、提供单层式动态性数据


数据仓储与决策管理(1990s


我想知道公司于去年十月在美国洛杉矶所贩卖的物品是什么?在旧金山会不会有市场?


在线分析处理系统(On-line


Analytic ProcessingOLAP)多重空间数据库、数据仓储


回寻档案、


提供多层式动态性数据


 


Data Mining(目前)


我想知道公司于下个月在加州所贩卖的物品会有何种情况发生?以及为什么会发生这种情况?


进阶数学运算技术、多处理器计算机、大型复杂数据库


回寻档案、提供未来式数据




Data Mining与机器自我学习的应用


因为机器能够从过去的数据或数据来做一个自我学习的功能,而机器与人类不同的地方在于机器会永远记住这些数据或数据,此后机器就能够依靠这些数据或数据来对人、事、物做一个精准的分析。



举例来说,当一间公司使用了Data Mining的技术后,所有职员习性、客户习性、公司的营业状况,甚至是整间公司的一举一动,都会被机器(可能是计算机丛集,也有可能是大型主机或系统)一一记录下来。



范例一:小王的行程


职员小王早上七点进公司后,马上开启计算机工作。小王上午每隔一小时就会休息五分钟、中午十二点外出吃饭、下午一点回公司继续上班、下午每一小时就会休息十分钟,下午五点准时关计算机下班。



小王第一个月从上班到下班之前的所有动作都已被中央处理系统(计算机和数据库的数据)详细的记录下来,并做自我学习的动作。到了第二个月,中央处理系统会使用Data Mining的技术,自动依照小王第一个月的习性来替小王的计算机做适当的规画。



小王早上七点进公司后,中央处理系统会准时为他开启计算机。每隔一个小时,中央处理系统就会自动拨放音乐或让计算机连上新闻网站让小王能够轻松一下。到了中午十二点,中央处理系统会让计算机自动进入休眠状态,一直到下午一点才会再度开启。下午五点,小王准时下班回家,中央处理系统此时会自动关掉计算机。



范例二:DM公司的规画


DM是一家贩卖化妆品的公司,目前要推出一款新的化妆品,所以公司在月底召开的董事会要决定下半年度所要主打的销售区域。公司的目标有三个,分别是洛杉矶、纽约、台北。公司董事会透过Data Mining的分析后得知三个结果:




  • ●洛杉矶在下半年度的销售量会很惨淡,原因是洛杉矶下半年的天气变得很冷。依照过去大部份的洛杉矶人的习性来看,他们都不太喜欢逛街,所以化妆品的销售量也会相对地变差。



  • ● 再来是纽约,纽约下半年天气寒冷,纽约人并不喜欢在寒冷的天气外出,所以商家的买气平平,化妆品的销售量并不会提高多少。



  • ● 最后是台北,台北的天气并不是那么地寒冷,且又新成立许多新的商圈,依照台北人的习性来看,假日的买气会非常地旺盛。所以下半年在台北推出新的化妆品,应该会有非常好的销售量。





经过Data Mining的分析后,董事会决定主打台北的销售市场。从一连串的决策过程看来,Data Mining的分析占了百分之九十九的比例,而百分之一的比例是由董事会决定要或不要主打台北的市场而已。



范例三:小林的直销客人


小林是一名果汁直销商人,以前的销售方法是乱枪打鸟,有客人就拉进来做,效率并不是很彰显。不过自从小林引用了Data Mining的技术后,对直销的事业有事半功倍的效果。



小林的做法是,把客户的名单一一地键到数据库后,再由计算机归类出每位客户的个人资料与习性,如住址、电话、年龄,甚至精细到饮食习惯、个人作息时间等。接下来小林再利用Data Mining的技术来预先知道那几名客户的成功率大于百分之九十,经过计算机的统计后,列出了可能性最高的客户名单。于是小林便可依照这些名单来拜访客户,充份发挥Data Mining在市场上预知的功能。



由以上几个例子我们看出Data Mining的技术不只可以做出精准的决策,甚至可以分析个人的习性到不可思议的地步。说不定再过不久,Data Mining完全发挥所有的功能后,所有的决策都只要靠计算机来订定,完全不需要靠人类了。



《图一 与现实生活环环相扣的Data Mining 》

资料来源:http://www.anc.ed.ac.uk/sdmiv/


Data Mining的原理


Data Mining的原意就是要在企业大型的数据库里找出有用的数据,如同在一座矿山里,寻着矿脉找出有用的矿物。不过要达成这一个目标,就必须从两方面着手。一是从广大的资源中筛选出适当的资源,另一方面就是利用A.I.的能力将有用的数据精准地分析出来。



《图二 Data Mining的路径图 》

资料来源:http://www.it-innovation.soton.ac.uk/research/decision_dm.shtml


模块的技术(Modeling)


这么强而有力的技术到底是怎么产生的呢?其实很简单,这是利用一种被称为模块(Modeling)的技术。那么什么是Modeling呢?Modeling就是将一些已知的信息应用在未知的信息上面。



举例来说,某位探险家想要到百慕达三角寻找沉船的玛丽皇后号。这名探险家输入了其它沉船的数据,发现到许多相同吨位的邮轮都在同一地点失踪,且这些邮轮的航线都差不多一样,沉没的日期也很相近。探险家再输入其它沉船打捞出来的地点,发现到都是在附近的海岸找到沉船的残骸。经过探险家输入多项数据后,Modeling会仿真出玛丽皇后号的路线与沉没的地点,并画出一个打捞的方向让探险家有脉络可寻。当然,越好的Modeling所绘出来的路线图也就越精准。



数据仓储的技术(Data Warehouse)


Data Mining除了需要Modeling做为核心技术外,Data Warehouse更是不可或缺的辅助工具。换句话说,一个完整的Data Mining,必须要整合Data Warehouse进而成为一个有互动功能的商业分析工具。



简单来说,Data Warehouse是一个巨型的数据库,国内译为数据仓储。目前的Data Mining技术是从外部来整合Data Warehouse,并需要额外的步骤来做数据的输入、输出与分析。Data Warehouse与Data Mining是需要做长期性的互动,两者之间更是需要一个应用程序来简化复杂的计算方式。Data Warehouse的功用不但能够大量地储存企业的数据,更可以提高企业的数据分析与决策能力,例如经营策略、商业骗子的预防,以及新产品的推出等。



在线分析系统(On-Line Analytical Processing,OLAP)


OLAP Server能够让终端用户更容易搜寻Data Warehouse里的数据。透过OLAP的分析,用户能够得到生产线、销售区域和其它关键数据的总结。Data Mining Server则可以整合Data Warehouse和OLAP Server,产生出一个完整的数据分析架构,并透过查询或显示的终端软件来让用户得知分析后的结果。假如将用户换成计算机本身,那么计算机便能够利用得到的结果来预测用户的下一步行动。利用上述,便能够实现范例一与范例二的情境。



《图三 Data Mining的架构 》

资料来源:http://www.thearling.com/index.htm#wps


总结


虽然巨型的数据仓储替企业储存许多有价与无价的数据,但是对于企业来说时间就是金钱,要是没有一个好的数据查询机制,再多的数据只是徒浪费时间罢了。OLAP和关联性数据库查询系统对企业来说是个不错的选择,不过当一眛蛮横地查询巨型数据库时,用户往往都会被大量的查询结果给淹没。Data Mining在此时就发挥了作用,它能够把第一手和滤过的数据呈现在用户的眼前,所得到的结果往往都会让人感到惊讶不已。



不过Data Mining的技术不仅仅用在企业的决策里面,甚至在网络上(有人称为Web Mining)或如范例一的结合中央处理系统,都可以运用自如。



<参考资料:http://www.thearling.com/index.htm#wps>



















延 伸 阅 读





















Data


Mining对企业来说是非常地有用,不但能够将有用的数据从庞大的数据库寻找出来


,更能影响到公司的决策。Kurt Thearling博士对Data Mining有甚详的研究与见解,此网站更有着


丰富的数据可供读者参考,相关介绍请见「Kurt


Thearling博士对Data Mining的研究报告」一文。

现今的网络系统所要处理的数据量持续的增加,也愈来愈复杂,所以更需要具有智能的系




统来管理和维护这庞大的网络系统。这个智能型系统除了具有分析与解决问题的能力外,还必须能找


出可能会发生的潜在问题。Data Mining的技术是这些问题的解决方案之一,你可在「智能型管理系统-Data


Mining」一文中得到进一步的介绍。

Data


Mining是为了找寻隐藏信息而产生的技术,它可实现客户关系管理,也可应用于工业


、医疗等各个领域,随着其技术愈来愈成熟,Data Mining的未来与远景相当令人期待,在「Data


Mining远景 无限广宽」一文为你做了相关的评析。


















相关组织网站






















中华数据采矿协会官方网站

国外Data


Mining论坛

国外Data Mining Group官方网站



相关文章
智慧型管理系统-DATA MINING
Data Mining远景 无限广宽
论网路致胜之道
引爆企业入口网站的燃点
企业入口网站建置评估
comments powered by Disqus
相关讨论
  相关新闻
» Fortinet资安报告:96%企业??心云端安全 单一云地整合管理平台成解方
» 宜鼎推出 iCAP Air 智慧物联空气品质管理解决方案 透过即时空品数据自主驱动决策
» 达梭系统携手CDR-Life 加速癌症治疗科学创新
» 宜鼎独创MIPI over Type-C解决方案突破技术局限,改写嵌入式相机模组市场样貌
» 鼎新电脑串连生态系夥伴 数智驱动智慧低碳未来制造


刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2024 远播信息股份有限公司版权所有 Powered by O3  v3.20.1.HK85774QDN2STACUK1
地址:台北数位产业园区(digiBlock Taipei) 103台北市大同区承德路三段287-2号A栋204室
电话 (02)2585-5526 #0 转接至总机 /  E-Mail: webmaster@ctimes.com.tw