基于Hadoop的移动信令数据分析系统的设计与实现(硕士)(论文28000字)
The Implementation and Design of Mobile Signaling Data Analysis System Based on Hadoop
摘要
随着通信网络技术的进步,移动互联网可支持的业务内容越来越精彩,业务类型也开始以互联网应用为主。然而,在各种不同的接入系统相互通信并实现资源共享的过程中,各接入网业务流量的上涨,对Gn接口(GRPS支持节点间接口,即同一陆地公共移动网络中SGSN与SGSN间以及SGSN与GGSN间的接口)的流量影响最为明显。如何处理并利用好这些有价值的信息,成为摆在移动运营商面前的重大课题。
Gn口数据的剧增给移动运营商造成了以下的尴尬局面,数据量很大但是由于得不到有效地处理和存储使得很多的信息存储了但是查不到、无法利用,甚至有些信息由于存储空间的限制无法存储。
基于这样的前提,本文在分析现有海量数据的处理和存储的技术基础上,提出了基于Hadoop分布式框架处理海量剧增的移动互联网数据的解决方案。Gn数据分析系统通过数据整合将源数据清洗、转换与加载,在Gn分析系统中形成统一的基础数据。在数据整合过程中同时完成数据质量的监控与提升。Gn分析系统通过系统上直接部署的数据应用完成业务应用支撑的功能;通过数据共享层可以给周边的数据源系统提供共享数据,另外也可通过Gn分析系统的数据共享与数据源系统配合完成跨域应用支撑。
本系统的特点是利用前沿的分布式框架来解决现实中的问题,经过几个月的需求调研、开发、测试、目前该系统取得了比较理想的预期效果。事实证明使用Hadoop分布式框架处理大数据的优势,比如:高效率、易扩展、低成本等。
关键词:移动互联网数据,Hadoop,海量数据,分布式框架
ABSTRACT
With the development of communication network technology, the business supported by the mobile Internet more and more exciting, and the types of it have also begun to Internet applications. However, the process of different access systems communicate with each other and realize resource sharing, the access network traffic increases, the flow of Gn interface (the interfaces between GRPS support nodes , i.e. in the same land public mobile network the interfaces SGSN and SGSN nodes and between SGSN and GGSN nodes)is the most obvious. How to process and use these valuable information, has become the top priority.
The explosion of Gn port data caused this kind of embarrassing situation for mobile operators, there is large amount of data but because of the lack of effectivetreatment and storage makes a lot of information stored, but can not be found out, can not be used, and even some information cannot be stored due to the memory constraints .
Based on this premise, on analysis existing technical of magnanimity data processing and storage , this paper put forward the solution for dealing with massive explosion data of mobile Internet based on Hadoop. Via the integration of data this system can do source data cleaning, transformation and loading, , the Gn analysis to form the basis of uniform data system. To monitor and improve the data integration and data quality in the process of. Analysis of Gn data application system deployment directly through the system of complete a business application support function; layer can give the data source system for data sharing around through data sharing, also we can through the Gn analysis system for data sharing and data source system to complete the across multiple domain application support.
The characteristics of this system is the use of advanced distributed framework to solve practical problems, after several months of researching needs, developmenting, testing, the system achieved an ideal the expected effect the fact that the use of Hadoop distributed framework advantages, such as: high efficiency, scalability, low cost etc..
Key words: mobile net Data ,Hadoop ,magnanimity data,distributed framework
目 录
第一章 绪论 1
1.1.课题背景与意义 1
1.2.国内外研究现状分析 2
1.2.1.国内研究现状 2
1.2.2.国外研究现状 3
1.2.3对比总结 3
1.3.研究目标及内容 3
1.3.1.研究目标 3
1.3.2.研究内容 3
1.4.论文组织结构 5
1.5.本章小结 5
第二章 系统相关技术介绍 6
2.1.Hadoop介绍 6
2.2. MapReduce介绍 7
2.3.HDFS介绍 10
2.4本章小结 11
第三章 系统需求分析 12
3.1.系统总体需求分析 12
3.2.可行性分析 12
3.3.系统业务目标 12
3.4.系统功能分析 13
3.4.1数据抽取 14
3.4.2数据预处理 14
3.4.3数据处理 15
3.4.4任务调度 15
3.4.5任务监控 15
3.5.系统非功能性分析 15
3.5.1技术开放性要求 15
3.5.2可扩展性 15
3.5.3安全性 16
3.5.4易用性 16
3.6 本章小结 16
第四章 系统总体设计 17
4.1.系统设计原则 17
4.2.系统总体方案 17
4.3.数据处理总体流程 20
4.4.数据库设计 20
4.4.1 E-R图 20
4.4.2 数据结构的设计 22
4.5.本章小结 25
第五章 系统详细设计与实现 26
5.1.客户画像标准化 26
5.1.1.客户画像标准化预处理 28
5.1.2.客户画像标准化 34
5.2URL画像生成 36
5.2.1URL汇总 37
5.2.2基于流量的排名 38
5.2.3 基于访问次数的排名 40
5.3小区汇总 41
5.3.1小区分钟粒度汇总 41
5.3.2小区按日汇总 43
5.4数据入库、存储模块设计 44
5.5本章小结 48
第六章 系统测试 49
6.1.系统测试目的 49
6.2.测试环境 49
6.3. 测试整体方案 49
6.3.1测试方法 49
6.3.2需要测试的质量特性 50
6.4.测试用例 51
6.4.1数据装载部署测试 51
6.4.2数据查询测试 52
6.4.3数据处理测试 53
6.5测试结果及分析 54
6.5.本章小结 56
结论与展望 57
7.1 结论 57
7.2 展望 57
参考文献 58
致谢 60 |