网络信息挖掘在电子商务系统中的应用

作者:admin  发表时间:2020-10-10  浏览:22  海淘人物

描述了网络信息挖掘的含义以及与数据挖掘之间的区别,提出了在电子商务应用中采用网络信息挖掘帮助企业实现最大化利润的方法,最后指出了网络信息挖掘未来的研究方向。 1引言  网络信息挖掘是不同于传统的数据仓库技术平和简单的知识发现,它面对的海量信息不是全简单的结构化数据,而常常为半结构化的数据,如文本、图形、图像数据,甚至是异构型数据。数据挖掘是从大量数据中提取出可信的、新颖的、有效的并能被人们理解的模式的高级处理过程,传统的数据挖掘技术处理的数据对象主要是结构化数据,很少处理Web上的异质、非结构化信息,因此,对Web上的数据进行挖掘具有极大的挑战性,也极大地推动了Web数据挖掘的研究工作,Web数据挖掘成为数据挖掘的一个新主题,引起了人们的极大兴趣。  1996年,Etzioni首次给出了Web挖掘的定义:Web挖掘就是使用数据挖掘技术从与WWW相关的资源和用户浏览行为中自动抽取用户感兴趣的、有用的模式和隐含的信息。它所处理的对象包括:静态网页(文字、多媒体信息等)、Web数据库、Web页面的内部结构、Web结构、用户使用记录等信息。通过对这些信息的挖掘,可以得到仅通过文字检索所不能得到的信息。  网络信息挖掘大致分为4个步骤:1)资源发现,即检索所需的网络文档;2)信息选择和预处理,从检索到的网络资源中自动挑选和预先处理得到专的信息;3)概括化,即从单个的Web站点以及多个站点之间发现普遍的模式;4)分析,对挖掘出的模式进行确认或解释。  2网络信息挖掘的分类  根据挖掘的对象不同,网络信息挖掘可以分为网络内容挖掘、网络结构挖掘和网络用法挖掘。  1)网络内容挖掘,即从网络的内容/数据/文档中发现有用信息的过程。网络信息资源类型众多,从网络信息源的角度看,大量的网络信息资源可以直接从网上抓取、建立索引、实现检索服务,但是还有一些网络信息是“隐藏”的,如南用户的提问而动态生成的结果,或是存在DBMS中的数据,或是那些私人数据,它们无法被索引,从而无法提供对它们有效的检索方式;从资源形式看,网络信息内容是由文本、图像、音频、视频、元数据等形式的数据组成的,因此网络内容挖掘是一种多媒体数据挖掘形式。  2)网络结构挖掘,即挖掘Web潜在的链接结构模式。这种思想源于引文分析,即通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式,可以用于网页归类,并且可以由此获得有关不同网页间相似度及关联度的信息,有助于用户找到相关主题的权威站点。  3)网络用法挖掘。通过网络用法挖掘,可以了解用户的网络行为数据所具有的意义。网络内容挖掘、网络结构挖掘的对象是网上的原始数据,而网络用法挖掘则面对的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括:网络服务器访问记录、代理服务器日志记录、浏览器日志记录、用户简介、注册信息、用户对话或交易信息用户提问式等。  3网络信息挖掘的应用领域  网络信息挖掘在实际工作中具有重要的实践意义和广阔的应用前景,可以应用在电子商务、科学研究、市场营销、金融投资、产品制造、教学管理及网络管理方面。  网络信息挖掘在电子商务中的应用主要是了解客户,针对不同客户提供不同的产品,提供个性化服务,确定顾客消费的生命周期,制定相应的营销策略,分析潜在的目标市场,优化电子商务网站的经营模式。网络信息在电子政务中主要用于民情信息的挖掘分析,为政府重大政策出台提供决策支持,通过对网络各种经济资源的挖掘,确定未来经济的走势,从而制定出相应的政策,这样可以较大程度地提高政府信息化水平。网络信息挖掘作为一种开发利用网络资源的有力工具,在企业竞争情报系统的工作中发挥重要作用。通过对大量专利数据的分析归纳, 发现权威站点和有重要价值的隐藏信息,并能监视和预测用户的访问习惯,通过对大量专利数据的分析归纳,挖掘出现有专利的模式和发展趋势,可以评价企业的竞争能力。网络信息挖掘还可以应用于搜索引擎,网络上存在着大量重复的网页,通过网络信息挖掘技术判断出重复的网页,并屏蔽掉这些重复信息,消除了重复信息的查询结果界面更加有序且方便于用户。  4网络信息挖掘在电子商务中的应用  4.1电子商务中网络信息挖掘的主要方式  1)数据抽取:网络信息挖掘的任务之一,就是从零散的、无规则的数据中寻找有用的、规则的数据,其基本的方法就是数据抽取。数据抽取是从数据泛化的角度来进行数据总结。数据泛化是一种把最原始、最基本的数据从低层次抽象到高层次上的过程,可采用多维数据分析方法和面向属性的归类方法来分析。在电子商务活动中,常采用多维数据分析方法进行数据抽取,它针对的是电子商务活动中的客户数据仓库。  2)聚类分析:聚类技术可以将具有相同特征的数据项聚成一类,即从网络信息数据中聚集出具有相似特性的客户、数据项集。在电子商务活动中,聚类分析技术可以分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,更好地帮助电子商务的用户了解自己的客户,向客户提供更合适、更面向客户的服务。  3)关联规则发现:用于从用户访问序列数据库的序列项中挖掘出相关的规则,其发现的主要对象是事务型数据。在电子商务活动中,对于销售数据库,一个事务一般由事务处理时间、客户购买的物品、客户标识号等组成。有关部门可以收集大量的售货数据和客户资料,对这些历史事务数据进行分析并发现关联规则,然后对客户的购买行为提供有价值的信息,帮助电子商务的用户规划市场,确定商品的种类、价格、质量等。  4)分类发现:分类的目的是使用一个分类函数或分类模型。分类发现一方面可以挖掘网络数据信息某些共同的特性,根据这个特性对新添到数据库里的数据项进行分类。另一方面,还可以从个人信息或共同的访问模式中得出访问某一个服务器文件的客户特征。在电子商务活动中,将具有相同特性的数据分类后,就可以针对这类客户的特点展开商务活动,提供个性化的信息服务。  5)序列模式发现:序列模式分析的侧重点在于分析数据间的前后或因果关系,挖掘出交易集之间的有时间序列的模式。在电子商务活动中,网站服务器日志中客户的访问是以一段时间为单位记载的,经过数据净化和事件交易确认后是一个间断的时间序列。  其反映的客户行为有助于帮助商家印证产品所处的生命周期阶段;另外挖掘出来的一些暂时性的序列模式,可以分析企业战略实施或产品促销的效果。  4.2电子商务中网络信息挖掘的流程  在电子商务活动中,对在线访问客户数据的挖掘主要有两部分:一部分是客户访问信息的挖掘另一部分是客户登记信息的挖掘。客户浏览信息被网络服务器自动收集并保存在访问日志、引用日志和代理日志中。面对大量的访问日志信息,需要组合应用计算机并行处理、神经元网络、模型化算法和其他信息处理技术手段,进行分析加工,从中得到商家用于特定消费群体或个体进行定向营销的决策信息。同时有效地对这些日志进行定量分析揭示其中的关联关系、时序关系、页面类属关系、客户类属关系和频繁访问路径、频繁访问页面等,不但可为优化网络站点拓扑结构提供参考,而且还可为商家更有效地确认目标市场、改进决策获得更大的竞争优势提供帮助。可以说,在电子商务活动中,网络信息挖掘实际上就是网络日志挖掘。网络日志挖掘一般分为四个部分:数据预处理、挖掘算法实施、模式分析、可视化。  4.3网络信息挖掘在电子商务中的应用  通过内容挖掘,可进行电子商务海量信息采集;通过使用记录挖掘,可辅助商家理解客户行为,识别电子商务的潜在客户,从而改进站点结构,调整销售策略,提供个性化服务。网络信息挖掘在电子商务中主要有以下几个方面的应用。  1)挖掘客户资源:在对客户访问记录的挖掘中,利用分类技术可以在网络上寻找潜在客户。对于新来访者,通过分类发现,识别出该客户与已经分类的老客户的一些公共属性,从而对其进行正确分类,然后根据归类判断,决定将其作为潜在客户对待。通过网络信息挖掘,可以掌握客户的忠诚度,以便对其进行个性化营销,挽留老客户。  2)提供个性化服务:商家必须记录访问者的特征及条款特征,才能使网络信息挖掘技术得到更好的应用。访问者特征包括人口统计特征、心理特征和技术特征等;条款特征包括网络内容信息和产品信息等。当访问者访问电子商务网站时,有关访问者的数据便会逐渐累积起来,商家在对网络信息进行挖掘之后获知访问的个人爱好,更加充分地了解客户的需要,根据个细分市场,甚至是每一个客户的独特需求提供性化服务。3)延长客户驻留时间:通过对客户访问信息的挖掘,可以了解客户的览行为,获知其兴趣及需求,根据需求动态向其荐页面,提供特有的一些商品信息和广告,以使继续保持访问站点的兴趣。  4)改进站点设计:对站点链接结构的优化可以从两个方面考虑一是通过对网络日志的挖掘,发现客户访问页面的相关性,在密切联系的网页之间增加链接,方便客户使用;二是通过网络日志的挖掘,发现客户的期望页面。若在期望页面的访问频率高于实际页面的访问频率,可考虑在期望页面和实际页面之间建立链接,实现站点优化。  5)提高系统效率:通过网络日志的挖掘,可以提供网站服务效率方面的信息,有助于找到平衡服务器的负荷,优化传输,减少阻塞,缩短客户等待的时间,提高系统的效率和服务。  5结束语  目前,知识发现研究的重点正从理论转向应用,凡是涉及数据和数据库的地方,都有与知识发现有关的课题等待我们去探讨。网络信息知识发现是一个较新的研究领域,具有广泛的应用前景,许多问题还有待进一步研究:网络信息挖掘方法、构建适合网络信息知识发现系统、分布式协作挖掘策略、满足个性化需求的网络服务等。我国的网络信息资源建设形成了一定的规模,但信息资源重复建设现象比较严重,网络信息的标准化和网络信息使用记录的挖掘还要进一步研究。(编选:中国电子商务研究中心 勇全)
海客讨论(0条)

头像

0/300

微博发布

部分图片内容来自于网友投稿

1416.81ms