数据挖掘建模过程及python处理实例研究

发表时间:2019/8/15   来源:《信息技术时代》2018年12期   作者:杨烨铭
[导读] 目前,在我国电信行业存在大量业务数据,利用这些数据进一步拓宽通信业务,已经成为各个通信单位的当务之急。近几年迅速崛起的数据挖掘技术可以深入分析客户信息、客户价值和行为,从而使营销具有洞察力、精确化,并通过从数据中挖掘价值来减少营销成本、提高营销效益。本文以通信行业为例,利用python编程对其数据进行挖掘,并详细介绍了数据挖掘过程,从而促进通信业务发展,为通信业提供决策支持服务。

(青海师范大学物理与电子信息工程学院,青海 西宁 810000

摘要:目前,在我国电信行业存在大量业务数据,利用这些数据进一步拓宽通信业务,已经成为各个通信单位的当务之急。近几年迅速崛起的数据挖掘技术可以深入分析客户信息、客户价值和行为,从而使营销具有洞察力、精确化,并通过从数据中挖掘价值来减少营销成本、提高营销效益。本文以通信行业为例,利用python编程对其数据进行挖掘,并详细介绍了数据挖掘过程,从而促进通信业务发展,为通信业提供决策支持服务。

关键词:数据挖掘;通信业务数据;python处理

 


引言

随着中国通信市场的竞争日趋激烈,通信运营商的经营理念已逐步从“技术质量第一”转变为“服务客户至上”。以前的营销模式无法满足客户的多样化,层次化和个性化需求。长期以来,通信单元的大量详细业务数据已经简单地应用于各种业务系统,并且还没有得到更有效的开发和利用。

1 数据挖掘模型

本文的数据挖掘示例使用呼叫行为,数据服务使用等作为客户分类变量,并将具有相似通信行为的人员分组到一个组中。数据挖掘方法论选用CRISP-DMCross-Industry Process for Data Mining)过程模型,即交叉行业数据挖掘过程标准。它从数据挖掘技术应用的角度划分挖掘任务,并将数据挖掘技术与实际应用紧密结合。这里,为了简化说明,我们不考虑循环的探索和调整过程,并直接按顺序检查每个链接,通过问卷调查和访谈实现客户的消费行为和需求。

1.1 数据准备

数据准备过程如下:

1)确定项目目标,制定挖掘计划。

2)分析变量的获取。

3)数据收集和获取。

4)数据集成。

根据CRISP-DM流程,首先是确定项目目标。本文定义的客户细分的业务目标是“从客户行为的角度对某个地方的数十万普通客户进行分类,了解不同客户群体的消费者行为特征,为新业务的发展,现有客户的保留,以及其他通信公司之间的竞争制定有针对性的策略提供依据。并实现公司战略目标,稳定现有客户,增加客户增长。”之后,应充分获取分析变量,并在确保数据的一致性,完整性,有效性和层次结构的基础上,数据指标完整,应涵盖所有业务分析和数据挖掘的需求。本文选择的数据源主要包括客户文件记录,客户营销记录,销售订单主表。

1.2建立模型

生成最终数据集后,就可以构建模型以执行集群分析。建模阶段主要是选择和应用各种建模技术,同时校准其参数以获得最佳值。在建模过程中,本文采用多种技术手段并对建模效果进行了比较,需要挑选合适的变量参与建模。该模型的建立是一个螺旋式,连续的优化过程。如果结果不理想,则需要调整聚类模型以优化模型,这称为聚类优化。可以通过调整聚类数量和调整聚类变量的输入,或者通过多次运行来选择满意的结果来实现聚类优化。通常可以根据以下原则判断聚类结果是否理想:类间特征差异是否明显;群内特征是否相似;集群结果是否易于管理并具有业务指导意义。

2 数据挖掘结果分析

根据客户分类的结果,重新定位客户,加深对客户的了解,并在此基础上制定响应策略。客户分类模型最终产生一些客户分类,根据这些组的特征可以分为三组。各组的频繁与不频繁通信行为比较见表1

1 各组的频繁与不频繁通信行为比较

分组号

频繁通信行为

不频繁通信行为

1:手机低使用率组

与小灵通通话

 

拨打10086次数

本地、省内长途漫游、

省际长途、IP、与

联通用户通话

 

2:固话通话频繁组

与固定电话通话

本地、省内长途漫游、

省际长途、IP

与联通用户通话

3:手机低使用率组

与固定电话通话

省际长途、IP电话

与联通通话次数

对于每个群体频繁且不频繁的通信消费行为,分析每个客户群并制定相应的客户营销策略。通过对这类客户呼叫行为的分析,以第一组客户为例,可以得到该组客户的整体行为特征:

这些人对关税非常敏感,可能对经济储蓄产品感兴趣。

这些人很少被呼叫,他们可以通过单向充电产品增加他们的呼叫需求。

由于交流范围相对狭窄,并且主要为市内通话,容易成为小灵通或大灵通的抢夺对象,因此可以设计一些市话优惠类的产品来保住客户,防止客户流失。

为了响应这些行为特征,可以开发相应的促销计划和销售渠道:由于这些人可能包括低工资的人,家庭妇女,老人,学生和社会需求较少的技术人员。因此可以选择超市,商场,学校等地进行海报推广或安排人们发送传单,在人群聚集场所进行一定的促销活动,实物奖励对这群人来说非常有吸引力。除了基本的销售点,还可以选择这个客户群的住宅楼附近的超市,小商店等作为销售点,效果会更好。

结论

在数据挖掘过程中,不同技术方案产生的模型结果差异很大,模型结果的可理解性也大不相同。此外,对结果的分析和描述也很关键,不恰当的描述可能会产生误导。需要指出的是,不同的业务问题和不同的数据分布属性将影响模型建立和调整的策略。此外,在建模过程中使用各种近似算法来简化模型的优化过程。因此,业务专家也需要参与调整策略,以避免因不当优化而导致的业务信息丢失。


参考文献

[1]田亚明.大数据挖掘在电商市场中分析与决策的应用[J].电子技术与软件工程.2019(07)

[2]赵乌吉斯古楞.数据挖掘的研究热点和发展趋势的浅谈[J].电脑知识与技术.2019(08)

[3]梁波.计算机数据挖掘在互联网行业中的应用[J].电子技术与软件工程.2018(23)



投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: