基于大数据的工程投资估算指标编制方法研究

发表时间:2020/8/24   来源:《基层建设》2020年第9期   作者:晁娟
[导读] 摘要:在编制可行性报告时,需要对估算指标进行参考,起到一个指导及参考的作用。
        中国安能集团第一工程局有限公司  广西南宁  530000
        摘要:在编制可行性报告时,需要对估算指标进行参考,起到一个指导及参考的作用。传统的估算方法是依靠工程实例结合预算定额,对数据进行整理、修正、调整得到的,具有效率低、任务量大等问题,需要对估算方法进行更新换代。
        关键词:大数据;工程投资;估算指标;编制方法
        1大数据技术应用过程
        1.1数据生成
        数据生成阶段关心的是数据如何产生。目前数据来源主要有:企业信息系统、web系统、在线社交网络。以上来源囊括了各种类型的数据,有容易处理的结构化数据,如以word、excel形式保存的公司财务报表、合同文本、会议纪要等;还有较难处理的非结构化数据或半结构化数据,如施工现场监测影音资料、网络html文件、dwg格式电子图纸等。
        根据《中国建筑施工行业信息化发展报告(2018)》进行的大数据应用情况调研分析,在参与调研的造价站、招标办、建设工程交易中心、建设行政主管部门信息中心等被访对象所在单位收集的数据情况如图1所示。
 
        图1  大数据生成途径及占比
        从图1可以看出,目前大多数企业数据主要来源是信息系统、电子文档以及纸质文档,以上途径产生的数据大多是简单易利用、数据质量较高的结构化数据。但是根据调研结果,将这些数据利用在工程造价管理信息系统中的占比不足15%,大量的数据并没有在造价管理中得到深度应用,因而仍需从业人员加强造价管理系统的数据应用开发。
        1.2数据采集
        要解决数据的定向挖掘,需要从上层数据的来源考虑,从可以获取数据的途径中收集尽可能多的数据。现阶段工程大数据来源大致分为三个渠道:
        1)各大企业的内部数据库,其中包含从可行性研究阶段、设计阶段、施工阶段等整个工程建设全生命周期的所有数据,形式多种多样,主要以文字、报表或图集的形式保存,这类数据目前较难获取,但数据准确性及价值较高;
        2)外部市场环境中获取的数据信息,如材料供应商处可获取企业单位的采购清单、机械租赁公司可获取各规格机械的租赁情况、人才市场可获取各单位用工情况等;
        3)公开的网络环境,如各大工程类相关网站上的招投标信息、工程实例信息、政府机构公布的开源数据库及行业年报等,这类数据通过开源网络环境较容易获取,但其数据量及有效性有一定的局限性。
        1.3数据存储
        目前常用于大数据存储的途径分为集中式存储和分布式存储,集中式存储即将所有采集的数据集中存储于统一服务器设备,其优点在于方便人为控制、维护方便;分布式存储通常可根据数据类型、体量将其分开存储于不同的独立设备中,其优点在于存储效率较高、数据库易于扩展,可按照需求对数据进行初步分类。
        利用分布式存储结合本文数据利用需求(按照项目特征等对数据进行分类挖掘),可引入SPU(标准化产品单元)概念对工程实例信息等进行特征描述,如描述某住宅项目时可用建设地点、建筑面积、建筑高度、结构型式、装饰标准等代表性特征,其目的在于用最小的特征集合区分不同的工程类别、单位工程、单项工程等,以起到能有效进行数据分层分类存储的效果。
        1.4数据利用
        数据利用主要包括数据挖掘分析与落地化应用两部分内涵。数据利用的前提是必须将需求目标与利用技术相结合,如在成本管理中利用数据的目的是成本预测以规避风险、辅助决策等,此时就需要结合成本预测的目标、选择合适的预测算法进行数据挖掘。又如将大数据用于物料管理时,对生产物资部门的出项进项进行追踪,分析出物料使用情况,进行数据累计后反馈问题,对关键物料及影响因素做出分析,以做出最优的物料管理优化方案,对物料进行有效管理,此处需要用到的便是数据挖掘分析算法。
        2基于大数据的工程投资估算指标编制方法
        2.1构建数据挖掘C4.5算法分类模型
        (1)C4.5算法简介。ID3算法最早由Quinlan提出,并对其进行改进优化,得到了C4.5算法,在数据挖掘环节中,可以起到一个分类的作用,在应用该算法时,先建立一个模型或者函数,并将样本映射到其中一个类别,主要通过三大步骤构建分类模型:(1)将准备好的数据集分类,随机划分到训练集或者测试集。(2)训练阶段。在完成随机分类以后,根据属性描述构建模型,如果是对工程项目进行分类,可以将人力费用、材料费用、机械费用划分到一个类别,在通过属性值估算指标子目,从多个方面对其进行描述。(3)测试阶段。在训练阶段建立分类模型的基础上,利用测试集数据对分类器进行验证,评估数据分类的准确率。
        (2)计算分类规则参数值并构建分类树。在这个环节中,最为关键的内容就是信息增益率,选择最高信息增益率在叶子节点处作为分裂属性。C4.5算法用于数据挖掘进行数据分类时构造树过程如下:设T为数据集,类别集合为{C1,C2,…,Ck},选择一个属性V把数据集T分为若干子集。设V有互不重合的n个取值{V1,V2,…,Vn},则T被分为n个子集T1,T2,…,Tn。令‖T‖为数据集T的实例个数,‖Ti‖为V=Vi的实例数,‖Cj‖=frep(Cj,T)为Cj类的实例数,‖Cjv‖则是V=Vi实例中,具有Cj类别例子数。按照属性V把集合T分割,分别计算每个属性的信息增益率,选取具有最高信息增益率的属性作为分裂属性划分给定的数据集,通过计算各叶子节点的分裂属性可构建分类规则树。
        (3)分类树的剪枝优化。在完成分类树的构造以后,还需要对其进行优化,由于某些原因,分类树可能过于茂盛,衍化出很多复杂的分类规则,不断无法为编制工作提供帮助,还会对其产生负面影响,为了控制该情况,需要采取剪枝优化的方法。在工程投资估算指标编制过程中,经过数据挖掘后,会产生大量的数据,部分数据处于离散状态,虽然同属于一个分项工程,但是由于方法、费用、工艺等不同的原因,会出现属性取值不同的情况。同是,在分裂节点的计算过程中,由于属性特征繁杂,同样会出现大量的分支。为此,要在构建分类树的过程中,考虑到分类树的复杂程度,不影响精确度的基础上,尽可能对分支进行优化,将无用的规则进行剔除,这也就是剪枝优化的过程。
        2.2估算指标的调整
        通过数据挖掘分类算法的合理应用,可以得到大量的工程数据,这些数据都来自于完工工程实例。在重新开展投资估算编制时,就会受到多种因素的印象,包括人工价格、材料价格等,对编制的精准度产生影响,为此要对时间因素进行考虑,并对估算指标合理调整。经过敏感性分析后,发现最大的敏感因素就是时间因素,会对估算指标产生影响,并且这种影响呈现出波动的状态,为此要计算好比率,并对估算指标进行优化调节。
        结束语:
        综合考虑时间因素对估算指标的影响,通过敏感性分析的方法确定了对估算指标影响最大的因素为材料价格。根据材料价格在未来可能发生的变化,可计算出时间影响后的建安工程费,将变化前后的数值比率作为估算指标的调整系数,调整后的指标具有一定时效性,能有效应对外部市场环境变化带来的影响。
        参考文献:
        [1]陈志鼎,李鑫.大数据背景下工程投资估算指标编制方法研究[J].工程研究:跨学科视野中的工程,2019(3):254-264.
        [2]史涛. 投资估算准确度评估方法及其应用[J].企业改革与管理,2019(11).
        [3]刘杰. 城市综合管廊工程投资估算研究[J].科技创新与应用,2017(14):243-245.
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: