关于互联网金融信息的挖掘

2019-12-02 来源：安全付作者：Memory

　　随着互联网的迅速普及和高速发展,互联网已渗透人人们生活的方方面面,保险、证券期货、股票、基金等金融信息纷纷高效地出现在互联网上,人们利用它进行金融活动的现象已经越来越普遍,越来越依赖互联网获取所需的金融信息,从事各种贸易和金融活动。面对互联网上浩如烟海的信息，随时随处都蕴藏着稍纵即逝的商机,那么对于企业和投资者来说，网络上金融信息的数量和信息的时效性非常重要。如何快速、高效、准确地获取所需信息，这对实现和优化检索技术提出了很高的要求。只有通过搜索引擎技术和数据挖掘技术相结合才能提高检索质量,满足用户的需求。

　　数据挖掘就是从海量的数据中挖掘出可能有潜在价值的信息的技术。这些信息是可能有潜在价值的，支持决策,可以为企业带来利益,或者为科学研究寻找突破口。传统的数据挖掘是以数据仓库为基础,对结构化的数据源进行信息的加工、分析和模式挖掘;对互联网数据库、并行数据库、空间数据库等新型数据库的挖掘方法更是当今数据挖掘的前沿。Web数据挖掘可以分为内容挖掘、结构挖掘和使用日志挖掘三种:一是内容挖掘。Web 内容挖掘可以看作是Web信息检索和信息抽取的结合,是从Web文档内容或其描述中抽取知识的过程。Web上的数据既有文本数据,也有声音、图像、视频等多媒体数据,所以Web内容挖掘可分为Web文本挖掘和Web多媒体挖掘，针对的对象分别是Web文本信息和Web多媒体信息。二是结构挖掘。Web结构挖掘具体应用在搜索引擎中，是对网页中的超链接进行分析,由链接之间的关系发现与金融信息相关的网页,将网页的信息收集起来;再进一步对搜索引擎搜索结果进行聚类,进一步提高簇描述,通过提高聚类描述更加准确地表达各检索结果的相关内容,可进一步缩短用户的浏览距离。最后将这些理论上可能更符合用户需求的网页列在返回列表的前排。它需要对网页进行排序,排序结果的优劣也直接影响到搜索引擎的性能。三是使用日志挖掘。Web使用日志挖掘是数据挖掘。在Web领域内的应用,通过将Web日志文件转化为关系数据库数据的形式进行挖掘,从而发现用户的访问模式,着眼于提高服务质量,预测用户行为等。

　　Web日志挖掘的结果通常是金融信息查询用户群的共性行为和相同兴趣,以及某个用户的个人偏好、模式和习惯等。

　　数据挖掘在互联网金融信息搜索引擎中的应用已逐渐显现,主要表现为对金融信息的Web数据挖掘与金融信息搜索引擎的结合应用。

　　金融信息搜索引擎就是一种专业搜索引擎,它在主体上是借鉴了通用型搜索引擎的搜索技术，但收集信息的领域只是金融领域。所以它必须使用识别技术进行金融词汇的识别,并由识别结果判断是否属于金融领域的内容,决定是否提供给访问者。在金融信息搜索中，搜索引擎可以根据金融的特点,粗略地将搜索类型分为定点搜索和机器人搜索;定点搜索就是根据预先的清单到指定的网站搜索信息、更新相关索引，如访问中国基金网网站、上海证券交易所网站、深圳证券交易所网站等。机器人搜索就是使用一个程序包定期对种子网站进行访问更新索引,并由此出发通过网页上的关联连接对互联网进行遍历、更新索引。

　　对金融信息的Web挖掘技术与金融信息搜索引擎技术相比，Web挖掘属于数据挖掘的分支,它属于知识发现的范畴，而搜索引擎则以信息的检索为目的,它属于共享信息发现的范畴,对比之下,对金融信息的Web挖掘要高于金融信息搜索引擎。金融信息搜索引擎只是存在于信息共享的层次,而Web挖掘处于知识发现的层次。虽然金融信息的Web挖掘技术与金融信息搜索引擎存在着很大的区别,但是两者的关系十分密切,两者的研究对象很相似,它们研究的对象绝大部分都是在互联网上跟金融信息相关的数据。并且在实际应用中,充分利用对金融信息的Web挖掘技术,可以提高搜索引擎获取金融信息的准确性，还可以对用户搜索结果进行相关处理，保证查找的准确率和查找的全面性。它们两者之间并不是相互代替的关系，相反,两者是相互补充、相互促进的。搜索引擎来源于信息检索技术,Web挖掘直接借鉴这些信息检索技术的经验,对Web所有金融信息进行更深一步的挖掘。反过来由于互联网上金融信息量的不断膨胀以及金融信息搜索者对Web金融信息资源搜索结果要求的不断提高，对于搜索引擎而言,通过借鉴Web挖掘技术和思想,使其更加适应互联网环境下对海量的金融信息检索的需要，提高查找的准确率和查找的全面性,改善检索结果的组织,从而改善检索性能、检索效率。