电子信息学院三年信息化规划
发布时间: 2020-06-21 浏览次数: 10

一、信息化大数据处理与分析中心

1、核心理念

当前,在数字中国的时代背景下,大数据概念引起了科技界、产业界和政府部门的高度关注。有效地组织和使用这些海量数据,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用。大数据的开发与利用已经在互联网、医疗服务、零售业、金融 业、制造业、物流、电信、工业 4.0 等行业广泛展开,并产生了巨大的社会价值和产业空间。2013 年初,中科院倡议应将大数据提升为国家战略。2017 两会期间,人工智能(简称 AI)首次被写入政府工作报告中,7 8 日,国务院 发布《新一代人工智能发展规划》,标志着人工智能产业已经上升到国家战略层面。大数据是继云计算,物联网之后兴起的又一新兴发展方向,被学术界、工业界乃至政府机构密切关注和广泛研究。大数据技术超越了时间和空间的限制,也超越了学科藩篱,是科技发展史上难得的契机。抓住其发展方向,扩大其应用范围,可实现我国科研的跨越式发展。

大数据不仅仅是面向大型企业,基于数据驱动的决策制定过程,正迅速成为几乎所有行业的标准,这使得在各种各样的行业、组织和学科中,开始重视大数据平台的构建。由于芯片、深度学习算法、大数据及云计算的飞速发展,人工智能技术已经在很多行业领域逐步落地。高校的大数据困境与机遇作为教学和科研的主力军,我国高校承担了大数据人才培养的主要任务同时承担了国家70%以上的科研项目,并取得了大量的科研成果。计算机仿真成为科研中快速追赶世界领先水平的重要手段。电子信息学院需要尽快搭建自身的虚拟云平台,为专业教学及科研提供虚拟计算空间。将云计算、大数据分析技术作为基础课程设置,使其作为教学和科研的基本工具和必要素质,提供定制化的实验、实训、科研综合解决方案,全方位支撑大数据教学及科研需求。

 

1:核心理念

大数据处理与分析中心将理论知识、实验教学和大数据项目实践融合,由浅入深,循序渐进,满足理论性和实践性教学的双重需要,逐步提升学生的专业技能和项目实践能力,协助高校提升相关专业竞争力,培养研究型、应用型等稀缺人才。同时,匹配教师的科研需求,提升教师的科研创新能力,从而有效提升科研成效,开创多方共赢局面。

2、大数据处理与分析中心架构

 

2:大数据实验室架构

针对高校大数据教学管理、项目实践、科研服务、创新孵化等实际应用场景,大数据实验室提供稳定、可靠、高效的软硬一体化大数据教学科研环境,以及完善的课程体系、项目数据和视频、多样化的教学手段和丰富的实战案例。

大数据实验室主要包括两个组成部分:

1)课程及项目案例

大数据课程体系提供教学实验指导手册、在线视频、资源包、实验示例代码等,让学生学以致用。通过在线学习、原理验证、实训应用、综合分析及自主设计等多层次的实验操作,为大数据教学提供一个完整的一体化的实验教学体系。项目案例提供行业典型项目及行业数据,项目涉及互联网、运营商、金融、电子商务、政府等多个领域。

2)硬件环境

基于业界最先进的硬件平台,采用企业级融合架构,针对不同软件单元的特性,对计算单元、网络单元和存储单元进行多层次重组和整合优化。

大数据处理与分析中心的优势:(1)真机实验训练:实验室各模块相对独立,交互式的实验任务、实验指导、项目上机操作,教学视频、考试评分、数据监控等,保障学生灵活、快速的掌握大数据核心技术及项目开发能力;(2)完善的课程体系:十年IT培训经验的沉淀,研发出行业领先的大数据课程体系,满足大数据教学及实训需求;(3)典型大数据项目案例:提供典型应用案例的数据包和视频包,多方位学习及训练,做到学生与企业需求无缝衔接;(5)充分支撑科研工作:整合了数据采集、质量监控、数仓建模、数据视图等,提供行业数据及案例用于科学研究。

3、专业课程建设

人工智能是最早出现的,其次是机器学习,稍晚一点是深度学习,当今人工智能大爆炸的核心驱动。上世纪五十年代,人工智能曾一度被极为看好。人工智能的一些较小的子集发展了起来,先是机器学习,然后是深度学习。深度学习又是机器学习的子集,深度学习造成了前所未有的巨大的影响。过去几年,尤其是 2015 年来,人工智能开始大爆发。很大一部分是由于图形处理器(GPU)的广泛应用,使得并行计算变得更快、更便宜、更有效。当然,无限拓展的存储能力和骤然爆发的数据洪流(大数据 – BigData)的组合拳,也使得图像数据、文本数据、交易数据、映射数据全面海量爆发。

 

3:人工智能、机器学习和深度学习

机器学习最基本的做法,是使用算法来解析数据、从中学习,然后对真实世界中的事件做出决策和预测。与传统的为了解决特定任务、硬编码的软件程序不同,机器学习是用大量的数据来训练,通过 各种算法从数据中学习如何完成任务。机器学习直接来源于早期的人工智能领域。传统算法包括:决策树学习、推导逻辑规划、聚类、强化学习和贝叶斯网络等等。人工神经网络(ArtificialNeuralNetworks)是早期机器学习中的一个 重要的算法。神经 网络的原理是受人类大脑的生理结构——互相交叉相连的神经元启发。但与大脑中一个神经元可 以连接一定距离内的任意神经元不同,人工神经网络具有离散的层、连接和数据传播的方向。

2012 年,吴恩达(Andrew Ng)教授在 Google 实现了神经网络学习到猫的样子。其突破在于,把这些神经网络从基础上显著地增大了。层数非常多,神经元也非常多,然后给系统输入海量的数 据来训练网络——数据是一千万YouTube 视频中的图像。吴教授为深度学习(Deep Learning)加入了深度Deep)。这里的深度就是说神经网络中众多的层,而深度学习则是将一组 像素映射到对象识别过程中所需的复杂映射,分解为一系列嵌套的简单映射。可见,深度学习正是新一代人工智能皇冠上的明珠,使得机器学习能够实现众多的应用,并拓展了人工智能的领域范围。深度学习正摧枯拉朽般地实现了各种任务,使得似乎所有的机器辅助功 能都变为可能。从无人驾驶汽车,到预防性医疗保健,甚至是更好的电影推荐,都近在眼前,或者即将实现。

基于工程教育理念,设计了大数据工程型人才的教育解决方案,让学生以主动的、实践的方式掌握大数据专业技能,通过原理验证、实训应用、综合分析及自主设计等多层次的实验操作,培养学生对数据科学中模型的理解和运用、处理实际数据的能力和利用大数据的方法解决具体行业应用问题的能力,为大数据教学提供一个完整的一体化的实验教学体系,培养具备大数据基础知识、个人能力、人机团队能力和项目动手的综合型人才。

  • 核心课程

为了让学生了解大数据概况,理解并掌握目前流行的大数据处理和分析技术,了解其特点和应用场景,能够自行开展简单的大数据应用开发。核心课程包括大数据概论、人工智能导论、Python语言、概率论与数理统计、数据挖掘、机器学习、深度学习、大数据分析与云计算等课程。

大数据是一门复杂的学科,涉及多方面技能和知识,包含数据科学工具、数据科学算法和行业应用案例三个部分的内容。学生首先要掌握数据科学的基本理论与算法,其次要掌握数据科学的框架与平台,进而掌握针对数据科学做具体应用的方法。

 

4大数据

实验按梯度分为演示性实验、验证性实验和开放性案例三部分。演示性实验用于给学生建立起数据科学的基本概念,展示常用的数据科学算法。以典型的应用数据为例,展示常用算法的分析效果。验证性实验为学生提供代码、数据集和环境,针对重要的数据科学算法进行实现。开放性案例为学生提供真实的数据集和参考代码,鼓励学生在此基础上做进一步探索性分析和挖掘。

  • 实训及实践课程

针对课程提供教学实验指导手册、实验资源包和实验示例,包括数据爬取、数据预处理、数据建模和数据可视化,学习大数据技术的基本理论、原理以及其在行业内的典型应用等,让学生学以致用、用以促学。

 

5大数据处理流程

    大数据分析课程群是为自动化、电子信息工程、水声工程等专业的本科生开设的一门专业选修课程,旨在培养学生运用大数据分析、云计算等先进数据分析与处理技术解决工程实际问题,培养学生处理复杂工程实际任务的能力。本实验室建设将大数据、机器学习、群体智能优化有机融合,是自动化、计算机、应用数学等学科有机交叉的研究方向,是当前人工智能领域的研究热点。大数据处理与分析中心和互联网众智创新实验室建设将会极大地丰富人工智能领域中机器学习、深度学习等先进理论的应用。

本科专业课程及配套教学资源

序号

本科专业课程

实验

课时

实验

手册

实验

代码

01

大数据概论                                                                      

4

10+

02

人工智能导论

6

10+

03

Python语言

18

10+

04

概率论与数理统计

6

5+

05

数据挖掘

12

10+

06

机器学习

8

10+

07

深度学习

12

10+

08

大数据分析与云计算

8

10+

4、大数据行业项目案例

提供行业典型项目案例及行业数据,项目涉及农业、运营商、电商、舆情、体育、交通、航空、银行、互联网、环境等多个领域,每个项目案例都配备项目方案及指导手册、项目源代码及代码注释、案例数据。

6:项目案例

每个教学项目案例数据均为真实数据,通过项目综合试验与上机操作训练,让学生真正了解大数据行业背景以及企业实施技术需求。数据科学教学实训还需要结合海量行业数据案例。通过案例化教学的形式,使得学生在真实数据中学习企业一手的大数据实践。

行业

项目名称

项目方案及指导手册

项目源代码及代码注释

案例数据

银行

大数据行业应用-银行贷款风险评估

交通

大数据行业应用-交通轨迹

运营商

大数据行业应用-运营商在线服务

舆情

大数据行业应用-情感分析

互联网

大数据行业应用-搜索引擎构建

1)大数据行业应用-银行贷款风险评估

一)项目概要

1)项目背景:

银行贷款专员需要分析贷款者一系列数据,以便搞清楚那些贷款申请者是安全的,低风险的。银行的风险是什么,通常通过模型法来评估:即在长期大量的数据积累的基础上,搜集各类可能影响客户风险的要素并建立数学模型,其预测结果可以为贷款员放贷提供相关依据。通过模型计算出客户的违约概率。这是目前绝大多数商业银行通行的做法,

2)建设目标:

亲自动手搭建项目所需的实验环境:分析用户数据对用户做风险分类。

二)需求分析

1)需求介绍:

处理用户数据给出相应的风险类别高低。

  • 功能点:数据清洗

  • 功能点:完成机器学习应用的主要开发流程。

  • 功能点:使用python对数据做预处理

  • 功能点:数据类型转换

  • 功能点:数据标准化处理

  • 功能点:建立随机森林模型

  • 功能点:模型评估

三)解决方案

1)架构简介:

本案例使用python提供相关的数据预处理,完成建模训练任务。

2)模块名称:

  • 数据存储模块:数据存储

  • 数据计算模块在预处理之后的数据集上建模训练

2)大数据行业应用-交通轨迹

一)项目核心知识点:百度地图API

二)项目描述:

1)项目背景:

随着互联网的深入发展,打车再也不是乘客呆呆的站在路口等待车辆的经过。随着各种打车软件的发展,打车可以足不出户,就可以约到自己想要搭乘的汽车。本实验主要是来探究生活中存在的打车难的问题,这个问题限制了我们有些时间的出行,有时浪费了我们大量的时间。在哪些地方容易打车,什么时候的车更容易搭乘,这是我们要着手解决的问题。

2)建设目标:

为了乘客能够高效,便捷的搭乘到出租车。本案例将利用某城市的出租车驾驶轨迹的数据,通过机器学习算法等相关技能,对打车的现状进行分析,并最终用可视化的手段直观的展示分析结果。为用户提供决策支持。

三)项目实训方案:

1)架构简介:本系统架构采用模块化设计,分为数据准备,解析csv数据, 构建特征向量,聚类模型训练,聚类模型测试,分析预测结果,数据可视化,将待处理的文件存放到本地的指定目录中。

2)模块名称

  • 数据准备模块:将待处理的文件存放到本地的指定目录中

  • 解析CSV模块:通过加载第三方的插件,实现对原始数据字段的解析。

  • 构建特征向量:通过定义特征数组,匹配原始数据,设置相关的属性

  • 聚类模型训练:利用K-means模型对原始数据中的训练集数据,进行训练

  • 聚类模型测试利用测试集数据对模型进行测试

  • 分析预测结果,对预测结果进行深入的分析

  • 数据可视化利用百度地图API对分析结果进行可视化展示。

3)大数据行业应用-运营商在线服务

一)项目描述:

随着通信行业的普及,以及人们对网络的需求越来越大,因此运营商的一些在线服务需求也来越大。对于客户体验来说,电子渠道提供了一个足不出户办理业务的便捷方式,对于运营商来说,电子渠道低成本分流了实体渠道的业务压力,将线下渠道的人力资源从低价值的业务办理中释放出来。

  • 全区服务统计:分别计算各服务区域内的申告量、处理量、回单量、回单率、重障量、重障率、及时量、及时率、成功率。

  • 投诉风险:通过申告次数、呼叫次数和用户情绪这三个维度评定用户等级,预防高危用户流失,降低投诉次数,提高用户体验。

  • 区域服务效能:通过申告量、专席人数来对各区域服务团队进行监控。

  • 热点故障区域分布:在地图上展现多发故障的位置以及故障信息。

二)项目实训方案

1)架构简介:本系统架构采用模块化设计,分为数据预处理、数据存储模块、数据处理模块、数据模块、结果展现模块。

2)模块名称:

  • 数据预处理模块:将运营商给的历史数据进行格式转换。

  • 数据存储模块:将清洗后的数据存储

  • 数据处理模块:数据进行处理,对具体的需求进行实现。

  • 结果展示模块:对结果的展示

4大数据行业应用-情感分析

一)项目核心知识点:PythonWord2VecPython函数、BasemapRandom Forest

二)项目描述:

1)项目背景:

在当今这个互联网时代,人们对于各种事情的舆论观点都散布在各种社交网络平台或新闻提要中。我们可以在移动设备或是个人PC上随时随地的发布自己的观点。对于这种网上海量分布地数据,我们可以利用机器学习等算法来挖掘各种重要信息,通过这些信息的直观表现,我们可以了解当前的舆论导向以及支持自身做出一些重要性的决定等等,所以针对网络社交平台中海量数据的挖掘分析显得尤为重要。本实验就是针对这一问题来从人们发布的对于美国大选中两位候选人的海量Twitter数据中分析人们对美国大选两位候选人的情感极性,直观的了解美国大选中美国公民对总统候选人的支持分布和程度等内容。

2)建设目标:

通过从已给出的twitter数据中抽取有用的信息,结合文本分析算法处理文本内容,使用机器学习相关算法从训练数据集中训练出随机森林模型,再使用模型针对测试数据集进行预测分析,结合可视化组件直观展示民意分布,即时了解舆情导向,让平时不关心社交平台的人么也能很容易的了解美国大选的民意风向。

三)项目实训方案

1)架构简介:本系统架构采用模块化设计,分为数据准备模块、文本转换向量模块、数据分词模块、可视化模块、模型训练模块、模型预测模块、程序运行模块。

2)模块名称:

  • 数据准备模块:从已给定的数据源文件夹中拷贝需要的文件到实验文件夹。

  • 文本转换向量模块:提供的机器学习模型处理的是向量形式的数据,因此我们需将文本转换为向量形式,定义文本转换函数。

  • 数据分词模块:针对数据源进行预处理和分词

  • 可视化模块:获取美国地图,展示分析和预测的结果

  • 模型训练模块:通过训练数据集训练随机森林模型

  • 模型预测模块:通过测试数据集对得到的随机森林模型进行测试,获得预测结果

  • 程序运行模块:运行完整代码,获取原始数据情感分布和随机森林预测情感分布

5)大数据行业应用-搜索引擎构建

一)项目概要

1)项目背景:

近年随着大数据的兴起,数据价值这名词随处可见,俨然成了一个新的风口。在这种风口下,数据科学家这个名词在这种潮流下越来越显得高大上,数据处理一词却成了枯燥泛味的工作代名词。

数据处理是对数据的采集、存储、检索、加工、变换和传输,也包括数据组织,数据计算,数据检索,数据统计排序等。数据处理是系统工程和数据价值提取的基本环节。

数据分析则是与数据处理有机结合,利用数据统计方法,从错综复杂的数据关系中梳理出事物的联系,比如发展趋势、影响因素、因果关系等。甚至建立一些BI,对一些数据的有用信息进行可视化呈现,并形成数据故事。

2)建设目标:

通过从淘宝网页中商品数据中爬取有用的信息,结合数据库以及中文分词技术,建立数据索引,以数据索引为基础,构建一个简单的数据搜索引擎,从而能够使用户快速定位关键数据,并通过URL查看详细信息。

二)需求分析

通过将从淘宝网页上爬取数据,针对数据建立快速索引,再利用Web技术构建网页,通过表单提交快速查询相关数据,形成一个简单的搜索引擎。

  • 爬取数据:利用爬虫插件以及jsoup解析并爬取淘宝网页上的内容。

  • 连接数据库:爬虫数据对接数据库,提供海量数据快速查询的功能。

  • 建立分词索引:对源数据表建立索引表,前端页面通过索引表匹配相关数据返回前台展示。

  • 搜索引擎web界面:利用Java Web技术编写搜索引擎网页,实现与后台交互,快速查询相关数据。

三)解决方案

1)架构简介:

本系统架构采用模块化设计,分为数据准备模块、数据爬取模块、分词索引模块、Web搜索引擎模块。

2)模块名称:

  • 数据准备模块:数据源获取(相关数据源已放置在实验环境对应目录中,直接使用即可)。

  • 数据爬取模块:完成对淘宝网页的html爬取,再利用jsoup解析网页内容,获取关键数据。

  • 分词索引模块:针对数据源表建立分词索引标,分词技术采用的是斯坦福中文分词器。

  • Web搜索引擎模块:利用Java Web技术编写搜索引擎页面,对接后台,返回符合用户搜索关键词的相关数据。

 二、互联网众智创新实验室

依托大数据处理与分析中心建设互联网众智创新实验室,引入全国大学生机器人大赛 RoboMaster机甲大师赛、互联网+”、挑战杯等竞赛,增强学生专业素质,开阔视野和眼界,提升同行竞争力。

互联网众智创新实验室硬件环境主要由三部分组成,分别是计算中心(大数据实验一体机)、学习中心、展示中心。

 

7:大数据实验室硬件环境

 

8:网络部署

1计算中心

大数据实验室是整个实验室建设的核心硬件平台,它一方面是学生和教师的大数据实训平台,另一方面也可以实现学生实验成果、教学科研成果的长期保存和项目成果积累,充分为实验室的成果积累提供存储空间支撑。

 

9:大数据一体机

大数据实验硬件配置方案:

产品模块

模块简介

计算服务器

Intel Xeon E5-2650v4 *2

320GB DDR4

300GB SAS *24TB SATA *3

RAID卡支持RAID0/1/5/10

千兆网口*2

管理服务器

Intel Xeon E5-2603v4 *2

64GB DDR4

300GB SAS *22TB SATA *3

RAID卡支持RAID0/1/5/10

千兆网口*2

交换机

24*10/100/1000Base-T

机柜

42U

2学习中心

采用普通终端PC机,组成实验室局域网,支撑学生进行大数据实验。

 

 

 

10:智慧大数据实验室

3、展示中心

随着信息技术发展的日新月异,高科技手段应用信息显示中心辅助决策系统越来越普遍。作为各种大数据项目数据以及图像可视化的集中显示终端,大屏幕显示系统一定要具备高分辨率显示、色彩均匀稳定,并且能与各种信号良好兼容的特性。

 

11可视化液晶拼接显示墙效果图

 

 

 

12:数据分析可视化

 

 


学校网站