石家庄邮电职业技术学院河北 石家庄 050000
摘要:随着信息技术的飞速发展,大数据技术也快速发展并且应用越来越广泛。信息技术的飞速发展为数据的收集和分析提供了强大的技术基础,并且随着数学与计算机科学的交汇,大数据技术的应用价值越来越大。 本文根据大数据技术的数据预处理要求,简要论述了大数据的预处理技术。分析结果表明,对数据进行预处理,可以更准确的获得有价值的数据。
关键词:大数据;数据预处理;技术;分析
一、大数据技术
1.概念
大数据技术,是指一种在不使用传统随机理论进行数据分析的情况下对数据进行集成分析和处理的方法,主要是在数据处理方面面临挑战。由于实际的生产和寿命,会生成并存储大量数据,这些数据可以表征该过程。您会看到使用科学合理的数据处理方法时,会挖掘它们的唯一值并将其用于优化。控制和决策制定并加深数据的价值。大数据由于其样本量大,准确性高和出色的科学质量而受到人们的欢迎。同时,大数据处理技术具有高速,多样化,高价值和可靠性。
2.大数据技术的处理流程
根据现有的一般大数据处理技术。第一步是数据的收集,这是大数据的数据来源,并且主要依靠信息技术(例如传感器网络)来实现数据收集。下一步是预处理数据,但是由于实际收集的数据存在噪音,冗余等问题,因此需要对其进行预处理以进行计算和分析,这也是本文的重点。第三步是存储正常检索的数据矩阵。第四步是数值分析,它是利用数据值分析的特定模型。第五步是显示结果,以简单易懂的形式将数据展示出来。从整个大数据处理过程的角度来看,数据预处理技术的水平决定了数据的可靠性和完整性,并在后续数据分析中起着重要作用。预处理过程中使用了许多数学计算模式。接下来,我们重点介绍相关数学转换和大数据预处理的数学分析方法。
二、数据预处理技术分析
1.需求分析
在数据采集的过程中会出现一些问题,例如测量采集设备的精度不足,数据传输过程中的环境干扰,数据中的环境噪声以及对手动输入数据的篡改,会形成不需要的或者错误的数据。这些原始数据存在以下问题集:(1)混乱。数据仅存储在数据集中,缺乏统一的定量和转换标准,因此无法进行数据的定量视觉分析。(2)重复。数据具有多个相同的物理描述和特征,尤其是在分析数据的方向上存在重复,这构成了数据重复和冗余数据的累积。这对样品的分析是有害的。例如,如果输入数据,则多次输入同一实体将导致重复数据。(3)模糊。实验模型或实际系统设计必定会存在一些漏洞和缺陷,从而使其物理特性不清楚或混乱。(4)丢失。发送或记录数据时发生错误,并且数据丢失。由于数据集的复杂性,数据的准确性和有效性极大地影响了挖掘学习的准确性和有效性。因此,对数据进行预处理成为一项重要的预分析任务。有很多预处理数据的方法,包括清除数据,选择数据和转换数据。
2.数据清洗
由于各种问题,实际收集的数据无法直接用于价值分析。这些不确定的数据会严重影响大数据数据分析的准确性,并且在关键情况下会失去分析结果的实际意义。出于某些目的需要进行预处理。数据清理主要处理不合规的数据,例如重复数据项,噪声数据项和丢失的数据项。数据重复会导致数据挖掘模型发生变化,应予以消除,但是检测重复数据的有效方法包括使用基于排序/合并原理的基本邻接排序算法。在实际的生产和生活中,数据不可避免地会有很多漏洞。这是在现实世界中生成的数据集的特征,只有某些算法才能补偿该错误。一般的缺失值预处理方法为:(1)直接删除空白数据项。该方法的优点是明显,高效且技术含量较低。但是,对于样本量不够大的数据集,会出现较大的偏差。(2)使用填充技术来填充缺失值。由于直接删除空值可能会对数据造成不可挽回的损害,因此我们使用填充算法来完成数据,但不容易产生偏差。统计方法:标准正态分布表明,可以使用数据的算术平均值代替空缺值。这是最简单,最常用的方法。分类法:面对大数据集时,您可以先对其分类,然后再分析和检查小数据集。分类方法对于样本训练具有很好的容忍性,但往往会过度学习。我们将需要设置更多的测试样本,并使用更多的算法进行检测和挖掘,因此在此不再赘述。
3.数据选样
数据选择分为简单随机选择和分层样本选择。 这是数学中的典型统计问题。 其中,简单随机样本选择不包括替换样本选择和替换样本选择。简单的随机样本选择算法易于实现。可以结合使用排列和概率知识以及中学编程知识来进行操作。通过分层样本选择获得的数据子集适用于数据挖掘。
4.数据变换
数据转换的目的是将数据转换为特定挖掘所需的格式。通常需要将其与实际数据挖掘算法结合起来以执行特定的数据转换。通常,它可以分为简单功能转换和统一标准转换。数据转换的重点是将难以表达和计算的原始不规则性转换为规范化的可分析数据,从而消除了由于收集和存储数据而造成的缺陷。尝试消除数据转换的基础是简单的功能转换,它通过特定的数学排列方式对数据进行排列,以采用曲线拟合方法。更复杂的算法也可以使用不同的复杂算法,例如Z分数归一化算法,以使数据转换更加准确和科学。此外,在使用数据之前,您需要合并数据,合并配置有不同数据源的数据集以删除冗余数据,将两个或多个上述数据集合并到同一数据集中。一种处理不正确的空位值的清洁技术,以使所获取的数据集更加科学和准确。
结束语
目前大多数技术都是基于某些特定数学类型的典型问题。通过本文的分析可以看出,实际收集到的数据受外部环境的影响很大,因此数据是变化的,难以保证数据的质量。同时,由于不同行业对数据的要求不同,有必要结合具体应用采用科学合理的数据预处理方法。因此,通过对数据的预处理,可以去除数据中的冗余或者错误的数据,得到更有价值的数据。
参考文献:
[1]孔钦,叶长青,孙赟.大数据下数据预处理方法研究[J].计算机技术与发展,2018,(5).1-4.
[2]刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报(工学版),2014,(6).957-972.
[3]林子雨.大数据技术基础[M].清华大学出版社,2013.