大数据智能分析与数据挖掘探究

发表时间:2021/8/9   来源:《中国科技信息》2021年9月中   作者:张津旭
[导读] 大数据时代,社会众多领域数据量的增加呈现出几何指数增长的态势,激增的海量数据背后隐藏着许多有价值的信息,如何对其进行更加智能的分析,以便更好地利用这些数据,挖掘出海量数据隐藏的有价值的信息,是当前研究的热点问题。

中冶赛迪重庆信息技术有限公司  张津旭

摘要:大数据时代,社会众多领域数据量的增加呈现出几何指数增长的态势,激增的海量数据背后隐藏着许多有价值的信息,如何对其进行更加智能的分析,以便更好地利用这些数据,挖掘出海量数据隐藏的有价值的信息,是当前研究的热点问题。海量数据的分析与挖掘变得越来越复杂,如何对这些海量数据进行有效挖掘,特别是如何从这些数据中归纳和提取更加本质的和更加有用的规律性信息,就成了当前研究的一个重要课题。
关键词:大数据智能分析;数据挖掘;探究
        1 大数据智能概述
        1.1 大数据
        大数据(BIG DATA)是当前研究的热点,对于大数据的表述,不同的学者和机构给出的定义也不相同,目前比较权威的表述主要有麦肯锡、维基百科、IBM公司、大数据研究机构高德纳(Gartner)和国际数据中心(IDC)以及美国国家标准技术研究院(NIST)等,多个权威机构针对大数据的数据体量大、数据类型繁多、价值密度低以及速度快等不同特征进行不同的阐述。大数据主要是指数据量非常巨大,如何从海量的数据中挖掘出尽可能多的有用的和有价值的信息是当前的大数据领域研究的热点问题,对于不断产生的数据,既要保证数据处理的时效性,还要考虑到对于流式数据的实时处理。
        1.2 人工智能
        人工智能的概念是由约翰﹒麦卡锡(John Mc Cathy)于1956年在达特茅斯会议上提出的。人工智能是研究智能行为的科学,它的最终目的是建立关于自然智能实体行为的理论和指导创造具有智能行为的人工制品。经过近半个世纪的发展,人工智能已经度过了简单的模拟人类智能的阶段,发展为研究人类智能活动的规律,构建具有一定智能的人工系统或硬件,以使其能够进行需要人的智力才能进行的工作,并对人类智能进行拓展的边缘学科。人工智能可分为3个层次,分别为弱人工智能、强人工智能和超人工智能,弱人工智能主要解决的是计算能力,遵循人工定义的严格规则,采用更多的是AI剪枝优化策略,利用当前的云计算平台实现大数据存储于并行计算;强人工智能主要解决的是在受限环境下的感知能力,具体表现就是传感、听与看的能力,其中包括以传感器为代表的物联网技术等。超人工智能主要解决的是在非受限环境下的认知能力,具体表现来看就是听得懂并能互动,主要的技术是自认语言理解和知识图谱构建及推理技术。人工智能技术的应用比较广泛,主要在难题求解、自动规划、机器定理证明、自动程序设计、机器翻译、智能控制、智能管理、智能决策、智能通信与智能化网络、智能仿真、智能CAD、智能制造、智能CAI、智能人机接口、模式识别、数据挖掘与数据库中的知识发现、计算机辅助创新、计算机文艺创作、机器博弈、智能机器人等方面。人工智能的技术特征表现在利用搜索、利用抽象、利用推理和利用学习以及遵循有限合理性原则。
        2 大数据挖掘
        2.1 数据挖掘
        数据挖掘(Data Mining,DM)是数据库知识发现中的一个步骤,是指从大量的数据中通过算法搜索隐藏于其中的信息的过程[3]。数据挖掘又称为数据库中的知识发现(Knowledge Discover in Database,KDD),就是从大量的、不完全的、有噪声的、模糊的甚至随机的实际应用数据中,提取出隐含在其中的、人们事先不知道的但又是潜在的有用的信息和知识的过程[4]。数据挖掘所挖掘的知识类型包括模型、规律、规则、模式和约束等。


数据挖掘运用的技术主要有统计学和机器学习,数据仓库和数据库以及可视化,其中,统计学主要研究数据的收集、分析、解释和标识,机器学习主要考察计算机如何基于数据学习,数据库与数据仓库方面主要是指数据挖掘能够利用可伸缩的数据库技术,以便获得在大型数据集上的高效率和可伸缩性,信息检索是指搜索文档或文档中信息的技术,其中,文档可以是结构化文本数据或非结构化多媒体数据,并且可能驻留在Web上,可视化是实现数据直观化呈现的重要方法。数据挖掘就是要挖掘出那些不能靠直觉发现的,挖出有价值的信息。
        2.2 大数据挖掘
        2.2.1 大数据挖掘方法
        大数据挖掘方法主要有社会计算、数据演变分析、知识计算、深度学习和数据预处理技术、关联规则挖掘、分类和聚类分析、孤立点挖掘和特异群组挖掘等,其中,社会计算是由Schuler提出的,其目标定位为社会问题与计算机技术之间的桥梁,是一个新的计算理论和方法,是大数据挖掘新的方法。数据演变分析与知识计算是当前另外两种新的大数据挖掘方法,深度学习主要应用在计算机视觉、自然语言处理和生物信息学等。数据预处理技术是提高数据挖掘质量的重要途径,可进行异常数据清除,使其格式标准化;关联规则挖掘能够使项与项之间的关系明显地从数据集中发现;分类是进行海量数据挖掘的基础,是进行数据挖掘的重要手段;聚类分析是实现海量数据挖掘的重要方法,是挖掘海量数据的有效措施;孤立点挖掘是数据挖掘中的主要方法,通常应用在气象预报和隐私保护等方面;特异群组挖掘是一种比较好的大数据挖掘方法,该挖掘方法可以应用在智能交通、生物医疗以及银行金融等多个领域。大数据时代,多源异构数据不断涌现,通过利用新的大数据挖掘方法如特异群组挖掘和孤立点挖掘等,可以有效地实现数据挖掘,挖掘出数据背后隐藏的有用的价值信息。
        2.2.2 大数据挖掘流程
        大数据挖掘处理的基本流程为大数据采集、大数据存储、ETL、大数据计算、大数据分析与挖掘和数据可视化等多个步骤,大数据的采集是指采集海量数据,在大数据采集过程中,其主要特点是并发数据较多,因此,需要专业的采集工具,其代表工具为Flume、Kafka、Logstash和Kibana以及Scribe等;大数据存储是针对不同类型的数据进行存储,针对结构化的数据可以采用SQL,非结构化数据采用NOSQL,此外,还有革新化的结构化方案NEWSQL,但随着数据的增多,传统的存储方式很难满足需求,利用新的大数据存储工具满足需求,其代表工具主要有HDFS、HBase、Cassadra等,其中,HDFS是Hadoop体系中数据存储管理的基础,HBase即(Hadoop Database)是一个适合于存储非结构化的数据库;ETL (Extract-Transform-Load,即数据仓库技术),其主要的ETL工具有Sqoop和Data X等;大数据计算主要是指海量数据的计算,常见的工具主要有Map Reduce、Storm、Impala、Tez和Presto等;大数据分析与挖掘与传统的数据挖掘有很大区别,大数据平台下,海量的数据对数据挖掘的时效性提出了更高要求,常用的工具有Mahout、MLlib、Hive和Pig等;大数据可视化常用的工具有D3、js和ECharts等。大数据挖掘处理不同于传统的数据处理,大数据挖掘处理更加注重的是整体数据的数据的处理而不是抽样数据,注重的是效率和最终效果。
参考文献
[1] 李华, 张井玲, 刘婷婷. 大数据时代下数据挖掘技术的应用研究[J]. 现代信息科技, 2019, v.3(13):140-141+144.
[2] 刘汝元. 数据挖掘在人工智能中的应用分析[J]. 信息与电脑, 2019, 000(011):141-142.
[3] 杜韫成. 大数据时代下数据挖掘技术在电力中的应用分析[C]// 用电与能效专题讲座暨智能用电及能效管理技术研讨会. 2019.
[4] 孙士兵. 基于数据挖掘的大数据管理模型研究[J]. 信息记录材料, 2019, 20(02):60-62.
[5] 刘子欢. 大数据下数据挖掘技术的应用研究[J]. 数字技术与应用, 2020(1):34-34.

投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: