交通医学出租企业交通大数据平台架构设计

0 引言近年来，随着大数据、物联网、移动互联联网技术的迅速发展，互联网出行公司为乘客提供了更加便捷的打车方式与多元化出行方式，推出的出行APP能够即时或预约出租车、快车、专车等出行。现在人们也逐渐养成使用出行APP打车的习惯，导致传统出租企业出行市场份额正在被分流到快车、专车等出行方式，逐渐失去了出行市场老大的地位。相较于互联网出行公司通过出行APP服务于乘客并监管车辆运营，传统出租企业因信息化建设滞后，很难快速响应乘客出行需求与实时服务于企业运营管理及司机运营的需求，也没有通过挖掘以往运营数据来发现运营问题，或提高企业出租运营管理及服务水平。为了达到提升企业运营效率与运营安全管理及运营服务水平，鉴于以往的交通大数据平台的研究对象多为省级或城市级[1-2]，针对出租企业级研究较少，所以本文在分析北京市出租企业信息化与业务现状的基础上，提出了出租企业交通大数据平台总体架构与技术实现架构。 1 出租企业交通大数据平台建设需求 1.1 信息化现状 (1)企业业务软件。出租企业核心的信息化软件一般为出租车运营监控系统、违章系统、人事管理系统、财务系统，具有车辆维修能力的企业还有车辆维修管理系统。因出租企业普遍缺少软件研发能力，以上软件均采用采购或委托第三方企业进行定制开发。因定制化程度差等原因，企业业务软件间互通性很差，通常需要靠人工才能互通。已采购系统的升级也因缺少资金的支持或领导对信息化重视程度不够而不能适应业务的发展或变化。 (2)乘客打车软件。乘客的打车软件使用第三方的居多，比如北京市大部分出租车均使用滴滴、嘀嗒、曹操出行，也有自研的平台，如首汽出租自研的首汽约车。 1.2 业务现状 (1)安全管理。出租企业司机在上岗前均需经过严格的考核，正式上车运营后，每月还需参加两次安全例会。例会上安全管理人员与出租车员工集体进行安全学习，安全管理人员通报最近企业内部运营安全违规事件，提醒司机安全注意事项。在非安全例会时间，安全队长会负责随机巡逻车队队内车辆，减少司机在公司外违规运营可免于处罚的侥幸心理。 (2)车辆管理。相较于互联网出行公司轻资产运营，出租车企业属于重资产运营，出租车辆是出租车公司出资购买的，车辆技术队长负责管理车辆车况安全。 (3)运营承包。出租企业出租车运营均实行承包制，按照车辆运营的方式可分为单班车、双班车，单班车即一个司机租一辆车；而双班车则两个司机租一辆车，分早、晚班运营。 (4)运营考核。在员工运营效益考核方面，出租车企业更注重安全，比如违章、事故、纠纷等。车辆的运营成本、司机的收入情况，因为已经承包给司机，所以企业并不考核。 (5)司机运营。司机运营时间长短均有自己控制，一般司机运营的时间和最小收入、期望收入有关，最小收入=日承包费用+日均净收入，期望收入=日承包费用+日最高期待净收入。当达到期待收入后，司机一般会选择下班休息而不再考虑继续运营。从以上5个方面可以看出出租企业管理重心在于安全，而司机的运营收入的多少取决于司机经验与运气。互联网出行平台出现后，APP叫车成为主流趋势，司机收入则取决于互联网出行平台的派单情况。 1.3 业务需求 (1)运营安全。运营安全包车辆车况安全与车辆行驶安全。保证车况安全有利于车辆行驶安全、也有利于延长车辆零部件的使用寿命、减少车辆维修保养费用支出；行驶安全主要指司机在驾驶车辆过程中各种操作均符合企业、行业、道路交通安全相关法规条例，避免因为司机的疏忽或过失，对乘客及道路上的车辆行人造成伤害。(2)运营效率。高效运营能够降低企业及司机的运营成本、提高企业与司机运营收入、提升企业的整体运营服务水平，还可辅助企业降低车辆空驶率，完成企业节能减排目标。(3)平台使用。因为出租企业从业人员的组成结构，员工普遍抵触使用复杂的软件。又由于快车、专车加入到运营车辆大军中，出租企业车辆被承包率开始下降，企业需要能够以较低的成本实现企业整体运营管理水平的升级。 1.4 平台目标平台能够互通企业内部数据，支持数据挖掘分析，且分析后的数据可支持企业搭建用于提升企业运营安全、运营效率管理与服务水平相关的应用。 2 出租企业交通大数据平台架构 2.1 总体架构设计为达到平台设计目标，本文从感知数据互通、数据深度挖掘、数据创新应用3个方面着手，构建了“一个中心、四大应用”的出租企业级交通大数据框架，如图1所示。其中，“一个中心”指的是企业交通大数据中心，对应数据分析层，用于支撑数据的实时处理、存储、挖掘分析、数据管理、数据共享，“四大应用”分别是服务于企业运营管理者的实时监控报警、统计挖掘、决策支持，服务于司机的服务应用。图1 出租企业大数据平台总体架构 2.1.1 物理感知物理感知为大数据中心准备数据，包括两个方面的数据，主要数据为出租终端上传的位置、出租计价(运营)、车辆OBD(车辆各种状态)、实时乘车人数数据，还包括原各个业务系统中数据库的数据，比如违章管理、例会管理、人事管理、财务等业务系统。 2.1.2 大数据中心大数据中心主要负责数据接入、数据计算、数据存储、数据统计分析挖掘、数据共享和数据管理。物理感知层数据全部实时接入大数据中心后处理流程如图2所示。具体流程如下：经过数据解析后一方面存储原始数据，另一方面用于实时监控报警等类业务处理。存储的原始数据经过批处理引擎的处理一方面存入数据仓库，另一方面用于支撑对数据仓库的统计分析(或挖掘)类服务，为应用层提供分析后的数据。数据共享主要与交通管理部门共享运营、能耗数据；而数据管理则负责管理大数据中心所有的数据。图2 大数据中心数据处理流程 2.1.3 四大应用 (1)实时监控报警，主要包含车况报警、驾驶行为报警、位置报警、客流实时分析等。其中，车况报警可包含故障码、水温异常、车辆电压异常、前/后氧传感器异常、三元催化发生异常报警；驾驶行为报警可包含超速、超转、过长怠速、疲劳驾驶、急加速、急减速、急转弯、发动机非经济运转等不良行为；客流实时分析主要指所有车辆经过客流实时分析后，显示不同地点的打车热度及人员流向。 (2)统计挖掘，主要分析的对象包含车况、能耗、司机、客流。对车况的统计挖掘能够挖掘车辆零部件发生各种类型故障的规律，有助于企业制定预防性的维修策略；对能耗的统计挖掘能够挖掘车辆能耗与行驶里程、车龄、行驶道路、天气、路况之间的关联关系；对司机的统计挖掘主要包含对司机的运营特征及驾驶行为特征的挖掘分析，能够分析出司机的运营时间偏好、驾驶行为类型、驾驶安全类型。对客流的分析能够分析不同时间客流的发生点及客流流向、吸引点及客流流向，有助于企业提升司机运营效率。 (3)决策支持，主要包含企业采购车辆、安全、运营策略的制定。第一，车辆采购。企业在积累的不同车型随行驶里程、行驶时间车辆零部件的故障变化、车辆能耗变化的规律后，既可支持车型评价，又可定制汽车企业车辆零部件甚至参与车辆设计与制造，来降低企业车辆运营及司机运营成本，提高在企业在出租市场上的竞争力。第二，安全策略。企业在掌握车况、司机驾驶行为及违章的状况后，着重针对司机行驶不安全问题及车辆车况不安全问题制定安全策略，尽可能减少或杜绝可诱发不安全运营的各种因素。第三，运营策略。企业在掌握车况、当前的司机的运营里程、运营时长状况后，可适当地提高或者降低司机承包运营车辆月租金，达到企业运营车辆整体上充分利用的目的，依此提高企业运营收入。 (4)服务应用，主要服务于司机，包含事故提醒、车辆维修提醒、违章提醒、驾驶行为的警告、客流大地点推荐等。事故、违章提醒是基于相同地点或相似场景下常发事故及违章的及时提醒；维修提醒是车辆零部件需要维修或者保养的预防性提醒或者实时的报警；驾驶行为警告是对司机不良驾驶行为的预警或者实时报警；客流服务是当客流滞留时，调度车辆疏散客流或者为长时间空载的司机提供调度服务，增加司机运营收入，或者为工时长、收入低司机优先提供调度支持，平衡司机收入差距。 2.2 技术架构设计为降低企业搭建平台成本，技术架构设计上均使用开源且已经经受住众多场景下考验的组件；考虑到企业人员使用的易上手性及操作方便性，架构上考虑尽可能支持SQL分析、处理数据(如Flink，Spark，Phonix，Kylin)、拖拽+配置组件完成数据整合与挖掘(如kettle，RapidMiner)，可视化操作(如Zeppelin)。通过技术架构中组件的整合，可实现数据接入、数据处理、数据存储、数据整合、业务整合、数据分析、数据挖掘。大数据中心技术架构如图3所示。图3 大数据中心技术架构 2.2.1 数据接入 (1)Flume，是一种分布式的、可靠的、高可用的海量日志采集、聚合和传输系统，支持在系统中定制各类数据发送方，用于收集日志数据。同时，它提供对数据进行简单处理，并写到各种数据接受方的能力[3]。本架构中用于实时收集车载终端上传的日志数据，并将数据传输至Kafka。(2)Kafka，是一个高吞吐量分布式发布订阅消息系统，因其扩展性好、高吞吐量、快速持久化、高可用性等优点被各大消息系统、流数据处理平台等广泛使用[4]。本架构中可保证在Flume瞬间上传实时车载终端数据量超过集群处理能力时，数据不丢失，并按照时序进行处理。 2.2.2 数据处理 (1)批处理。Spark能够在内存中进行计算，比MapReduce更加高效，适用于批处理、迭代算法、交互式查询场景。并且可通过SQL完成Hive数据仓库数据批处理，在spark分布式集群上快速完成机器学习的训练[5]。(2)实时处理。Apache Flink是一个高吞吐、低延迟、高性能分布式流式数据处理框架。Flink支持SQL完成大部分计算场景[6]，本架构中使用Flink实时处理Kafka中的实时终端类数据，用于驾驶行为及车况的报警等。 2.2.3 数据存储 (1)Hbase，是一个分布式、持久的、强一致性存储系统，适用于有序数据的读取场景，具有近似最优的写性能(能使I/O利用率达到饱和)和出色的读性能[7]，本架构中Hbase用于存储出租车载终端上传的数据。Hbase不支持SQL操作，本架构通过Phonix 执行SQL对Hbase 中存储的数据进行查询。(2)Hive，是最适合数据仓库应用程序的，可以维护海量数据，可以对数据进行挖掘，然后形成意见和报告[8]。Hive提供HiveQL查询语言，将大多数查询转译成MapReduce作业[8]。本架构应用Hive存储海量客流分析、能耗分析等主题库中的数据。 2.2.4 数据整合 Kettle具有容易使用的图形用户界面[9]，数据抽取高效稳定，转换组件丰富多样，是关联原有业务系统数据及建立数据仓库得力工具。本架构应用kettle用于数据进入数据仓库前清洗及补充关联企业的人、车基础信息。 2.2.5 业务整合 ESB提供了网络中最基本的连接中枢，是构筑企业神经系统的必要元素。通过ESB新建平台与原有系统能够互联互通，在平台数据的应用方面ESB的主要功能是通过ESB发布的接口获取对应业务系统的数据。平台相关的服务也将注册到ESB上，支撑原有或新业务系统的升级或建设。 2.2.6 数据分析 (1)OLAP分析。Apache Kylin是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据，能在亚秒内查询巨大的Hive表。比如按照公司、车队、车辆分析年/月/日/时/运营里程、运营时间、运营收入的统计值(最大、最小、平均值等)。 (2)交互分析。Apache Zeppelin提供了Web版的notebook，支持使用scala 编写Spark 脚本、使用SQL查询JDBC支持的数据库、使用Python、shell脚本交互式分析、处理数据和数据的可视化。 2.2.7 数据挖掘 RapidMiner[10]是用于数据挖掘、机器学习、商业预测分析的开源计算环境。提供的数据挖掘和机器学习程序包括：数据预处理、可视化、建模、评估和部署。其数据挖掘过程简单，强大和直观，非常适用于搭建数据挖掘demo，而sparkML则可用于分布式机器学习训练。数据挖掘可用于推荐空载司机乘客高频乘车点、车辆零部件故障预测等。 3 交通大数据中心在出租企业业务中的作用交通大数据中心在出租企业中起着最基础的分析作用，比如，本企业出租出行路网，支撑着客流发生吸引点的时空变化分析、客流分流时空分析，相同发生吸引点乘车路径倾向性分析、道路承载客流分析，对车辆的事故、违章预警等也都起着支撑性的作用。下面简单介绍下出租出行路网，及其如何支撑客流发生吸引点的时空变化分析、客流分流时空分析、乘车路径倾向性分析、道路承载客流分析。 (1)出租出行路网。通过处理出租车历史位置可生成出租出行所经过所有的路段记录。路段包含了路段的起终点、道路的等级、主路/辅路还有路段节点是平面交叉/立体交叉，本功能支持了以下分析结果的展示，辅助企业制定空载车辆调度策略。(2)客流发生吸引点的时空变化分析。在分析某时间段内出租上下客流的基础上，可在出租出行路网上渲染出不同时间、不同地点客流发生吸引的强度。(3)客流分流时空分析。在分析某时间段内出租乘车客流的基础上，可分析出不同时间、不同乘车地点客流去往不同目的地的流向变化。(4)乘车路径倾向性分析。在分析某时间段内出租乘车客流的基础上，找出乘车地点与目的地均相同的出行，可分析出不同时间、某一乘车地点客流去往相同目的地实际出行路径变化。(5)道路承载客流分析。在分析某时间段内出租乘车客流的基础上，可分析出不同时间、不同路段载客人数变化情况，载客人数越多的路段。 4 结语随着大数据、物联网、移动互联联网技术的迅速发展，为出租行业发展带来了革命性的机遇。本文分析了出租企业信息化与业务现状，设计了可满足平台目标的租企业级交通大数据平台的总体架构与技术架构，此架构以为出租企业自设计大数据平台架构提供参考。 [1]常峰铭.辽宁省道路运输大数据分析平台建设及应用[J].北方交通，2019(5)：92-94. [2]张孜，黄钦炎，冯川.广州市城市智能交通大数据体系研究与实践[J].大数据，2019(4)：113-120. [3]马晓亮.基于Hadoop与Flume的拒绝服务攻击检测研究[J].信息安全研究，2018(9)：799-805. [4]高宗宝，刘丽美，张家铭，等.Spark平台中Kafka偏移量的读取管理与设计[J].软件，2019(7)：118-122. [5]卡劳，肯维尼斯科，温德尔，等.Spark快速大数据分析[M].王道远，译.北京：人民邮电出版社，2015. [6]张利兵.Flink原理实战与性能优化[M].北京：机械工业出版社，2019. [7]LARS G.Hbase权威指南[M].代志远，刘佳，蒋杰，译.北京：人民邮电出版社，2013. [8]EDWARD C, DEAN W, JASON R. Hive编程指南[M].曹坤，译.北京：人民邮电出版社，2013. [9]马特·卡斯特，罗兰·布曼，乔斯·凡·东恩.Pentaho Kettle解决方案：使用PDI构建开源ETL解决方案[M].初建军，曹雪梅，译.北京：电子工业出版社，2014. [10]瓦杰·考图.预测分析与数据挖掘RapidMiner实现[M].严云，译.北京：人民邮电出版社，2018. 0 引言近年来，随着大数据、物联网、移动互联联网技术的迅速发展，互联网出行公司为乘客提供了更加便捷的打车方式与多元化出行方式，推出的出行APP能够即时或预约出租车、快车、专车等出行。现在人们也逐渐养成使用出行APP打车的习惯，导致传统出租企业出行市场份额正在被分流到快车、专车等出行方式，逐渐失去了出行市场老大的地位。相较于互联网出行公司通过出行APP服务于乘客并监管车辆运营，传统出租企业因信息化建设滞后，很难快速响应乘客出行需求与实时服务于企业运营管理及司机运营的需求，也没有通过挖掘以往运营数据来发现运营问题，或提高企业出租运营管理及服务水平。为了达到提升企业运营效率与运营安全管理及运营服务水平，鉴于以往的交通大数据平台的研究对象多为省级或城市级[1-2]，针对出租企业级研究较少，所以本文在分析北京市出租企业信息化与业务现状的基础上，提出了出租企业交通大数据平台总体架构与技术实现架构。1 出租企业交通大数据平台建设需求1.1 信息化现状(1)企业业务软件。出租企业核心的信息化软件一般为出租车运营监控系统、违章系统、人事管理系统、财务系统，具有车辆维修能力的企业还有车辆维修管理系统。因出租企业普遍缺少软件研发能力，以上软件均采用采购或委托第三方企业进行定制开发。因定制化程度差等原因，企业业务软件间互通性很差，通常需要靠人工才能互通。已采购系统的升级也因缺少资金的支持或领导对信息化重视程度不够而不能适应业务的发展或变化。(2)乘客打车软件。乘客的打车软件使用第三方的居多，比如北京市大部分出租车均使用滴滴、嘀嗒、曹操出行，也有自研的平台，如首汽出租自研的首汽约车。1.2 业务现状(1)安全管理。出租企业司机在上岗前均需经过严格的考核，正式上车运营后，每月还需参加两次安全例会。例会上安全管理人员与出租车员工集体进行安全学习，安全管理人员通报最近企业内部运营安全违规事件，提醒司机安全注意事项。在非安全例会时间，安全队长会负责随机巡逻车队队内车辆，减少司机在公司外违规运营可免于处罚的侥幸心理。(2)车辆管理。相较于互联网出行公司轻资产运营，出租车企业属于重资产运营，出租车辆是出租车公司出资购买的，车辆技术队长负责管理车辆车况安全。(3)运营承包。出租企业出租车运营均实行承包制，按照车辆运营的方式可分为单班车、双班车，单班车即一个司机租一辆车；而双班车则两个司机租一辆车，分早、晚班运营。(4)运营考核。在员工运营效益考核方面，出租车企业更注重安全，比如违章、事故、纠纷等。车辆的运营成本、司机的收入情况，因为已经承包给司机，所以企业并不考核。(5)司机运营。司机运营时间长短均有自己控制，一般司机运营的时间和最小收入、期望收入有关，最小收入=日承包费用+日均净收入，期望收入=日承包费用+日最高期待净收入。当达到期待收入后，司机一般会选择下班休息而不再考虑继续运营。从以上5个方面可以看出出租企业管理重心在于安全，而司机的运营收入的多少取决于司机经验与运气。互联网出行平台出现后，APP叫车成为主流趋势，司机收入则取决于互联网出行平台的派单情况。1.3 业务需求(1)运营安全。运营安全包车辆车况安全与车辆行驶安全。保证车况安全有利于车辆行驶安全、也有利于延长车辆零部件的使用寿命、减少车辆维修保养费用支出；行驶安全主要指司机在驾驶车辆过程中各种操作均符合企业、行业、道路交通安全相关法规条例，避免因为司机的疏忽或过失，对乘客及道路上的车辆行人造成伤害。(2)运营效率。高效运营能够降低企业及司机的运营成本、提高企业与司机运营收入、提升企业的整体运营服务水平，还可辅助企业降低车辆空驶率，完成企业节能减排目标。(3)平台使用。因为出租企业从业人员的组成结构，员工普遍抵触使用复杂的软件。又由于快车、专车加入到运营车辆大军中，出租企业车辆被承包率开始下降，企业需要能够以较低的成本实现企业整体运营管理水平的升级。1.4 平台目标平台能够互通企业内部数据，支持数据挖掘分析，且分析后的数据可支持企业搭建用于提升企业运营安全、运营效率管理与服务水平相关的应用。2 出租企业交通大数据平台架构2.1 总体架构设计为达到平台设计目标，本文从感知数据互通、数据深度挖掘、数据创新应用3个方面着手，构建了“一个中心、四大应用”的出租企业级交通大数据框架，如图1所示。其中，“一个中心”指的是企业交通大数据中心，对应数据分析层，用于支撑数据的实时处理、存储、挖掘分析、数据管理、数据共享，“四大应用”分别是服务于企业运营管理者的实时监控报警、统计挖掘、决策支持，服务于司机的服务应用。图1 出租企业大数据平台总体架构2.1.1 物理感知物理感知为大数据中心准备数据，包括两个方面的数据，主要数据为出租终端上传的位置、出租计价(运营)、车辆OBD(车辆各种状态)、实时乘车人数数据，还包括原各个业务系统中数据库的数据，比如违章管理、例会管理、人事管理、财务等业务系统。2.1.2 大数据中心大数据中心主要负责数据接入、数据计算、数据存储、数据统计分析挖掘、数据共享和数据管理。物理感知层数据全部实时接入大数据中心后处理流程如图2所示。具体流程如下：经过数据解析后一方面存储原始数据，另一方面用于实时监控报警等类业务处理。存储的原始数据经过批处理引擎的处理一方面存入数据仓库，另一方面用于支撑对数据仓库的统计分析(或挖掘)类服务，为应用层提供分析后的数据。数据共享主要与交通管理部门共享运营、能耗数据；而数据管理则负责管理大数据中心所有的数据。图2 大数据中心数据处理流程2.1.3 四大应用(1)实时监控报警，主要包含车况报警、驾驶行为报警、位置报警、客流实时分析等。其中，车况报警可包含故障码、水温异常、车辆电压异常、前/后氧传感器异常、三元催化发生异常报警；驾驶行为报警可包含超速、超转、过长怠速、疲劳驾驶、急加速、急减速、急转弯、发动机非经济运转等不良行为；客流实时分析主要指所有车辆经过客流实时分析后，显示不同地点的打车热度及人员流向。(2)统计挖掘，主要分析的对象包含车况、能耗、司机、客流。对车况的统计挖掘能够挖掘车辆零部件发生各种类型故障的规律，有助于企业制定预防性的维修策略；对能耗的统计挖掘能够挖掘车辆能耗与行驶里程、车龄、行驶道路、天气、路况之间的关联关系；对司机的统计挖掘主要包含对司机的运营特征及驾驶行为特征的挖掘分析，能够分析出司机的运营时间偏好、驾驶行为类型、驾驶安全类型。对客流的分析能够分析不同时间客流的发生点及客流流向、吸引点及客流流向，有助于企业提升司机运营效率。(3)决策支持，主要包含企业采购车辆、安全、运营策略的制定。第一，车辆采购。企业在积累的不同车型随行驶里程、行驶时间车辆零部件的故障变化、车辆能耗变化的规律后，既可支持车型评价，又可定制汽车企业车辆零部件甚至参与车辆设计与制造，来降低企业车辆运营及司机运营成本，提高在企业在出租市场上的竞争力。第二，安全策略。企业在掌握车况、司机驾驶行为及违章的状况后，着重针对司机行驶不安全问题及车辆车况不安全问题制定安全策略，尽可能减少或杜绝可诱发不安全运营的各种因素。第三，运营策略。企业在掌握车况、当前的司机的运营里程、运营时长状况后，可适当地提高或者降低司机承包运营车辆月租金，达到企业运营车辆整体上充分利用的目的，依此提高企业运营收入。(4)服务应用，主要服务于司机，包含事故提醒、车辆维修提醒、违章提醒、驾驶行为的警告、客流大地点推荐等。事故、违章提醒是基于相同地点或相似场景下常发事故及违章的及时提醒；维修提醒是车辆零部件需要维修或者保养的预防性提醒或者实时的报警；驾驶行为警告是对司机不良驾驶行为的预警或者实时报警；客流服务是当客流滞留时，调度车辆疏散客流或者为长时间空载的司机提供调度服务，增加司机运营收入，或者为工时长、收入低司机优先提供调度支持，平衡司机收入差距。2.2 技术架构设计为降低企业搭建平台成本，技术架构设计上均使用开源且已经经受住众多场景下考验的组件；考虑到企业人员使用的易上手性及操作方便性，架构上考虑尽可能支持SQL分析、处理数据(如Flink，Spark，Phonix，Kylin)、拖拽+配置组件完成数据整合与挖掘(如kettle，RapidMiner)，可视化操作(如Zeppelin)。通过技术架构中组件的整合，可实现数据接入、数据处理、数据存储、数据整合、业务整合、数据分析、数据挖掘。大数据中心技术架构如图3所示。图3 大数据中心技术架构2.2.1 数据接入(1)Flume，是一种分布式的、可靠的、高可用的海量日志采集、聚合和传输系统，支持在系统中定制各类数据发送方，用于收集日志数据。同时，它提供对数据进行简单处理，并写到各种数据接受方的能力[3]。本架构中用于实时收集车载终端上传的日志数据，并将数据传输至Kafka。(2)Kafka，是一个高吞吐量分布式发布订阅消息系统，因其扩展性好、高吞吐量、快速持久化、高可用性等优点被各大消息系统、流数据处理平台等广泛使用[4]。本架构中可保证在Flume瞬间上传实时车载终端数据量超过集群处理能力时，数据不丢失，并按照时序进行处理。2.2.2 数据处理(1)批处理。Spark能够在内存中进行计算，比MapReduce更加高效，适用于批处理、迭代算法、交互式查询场景。并且可通过SQL完成Hive数据仓库数据批处理，在spark分布式集群上快速完成机器学习的训练[5]。(2)实时处理。Apache Flink是一个高吞吐、低延迟、高性能分布式流式数据处理框架。Flink支持SQL完成大部分计算场景[6]，本架构中使用Flink实时处理Kafka中的实时终端类数据，用于驾驶行为及车况的报警等。2.2.3 数据存储(1)Hbase，是一个分布式、持久的、强一致性存储系统，适用于有序数据的读取场景，具有近似最优的写性能(能使I/O利用率达到饱和)和出色的读性能[7]，本架构中Hbase用于存储出租车载终端上传的数据。Hbase不支持SQL操作，本架构通过Phonix 执行SQL对Hbase 中存储的数据进行查询。(2)Hive，是最适合数据仓库应用程序的，可以维护海量数据，可以对数据进行挖掘，然后形成意见和报告[8]。Hive提供HiveQL查询语言，将大多数查询转译成MapReduce作业[8]。本架构应用Hive存储海量客流分析、能耗分析等主题库中的数据。2.2.4 数据整合Kettle具有容易使用的图形用户界面[9]，数据抽取高效稳定，转换组件丰富多样，是关联原有业务系统数据及建立数据仓库得力工具。本架构应用kettle用于数据进入数据仓库前清洗及补充关联企业的人、车基础信息。2.2.5 业务整合ESB提供了网络中最基本的连接中枢，是构筑企业神经系统的必要元素。通过ESB新建平台与原有系统能够互联互通，在平台数据的应用方面ESB的主要功能是通过ESB发布的接口获取对应业务系统的数据。平台相关的服务也将注册到ESB上，支撑原有或新业务系统的升级或建设。2.2.6 数据分析(1)OLAP分析。Apache Kylin是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据，能在亚秒内查询巨大的Hive表。比如按照公司、车队、车辆分析年/月/日/时/运营里程、运营时间、运营收入的统计值(最大、最小、平均值等)。(2)交互分析。Apache Zeppelin提供了Web版的notebook，支持使用scala 编写Spark 脚本、使用SQL查询JDBC支持的数据库、使用Python、shell脚本交互式分析、处理数据和数据的可视化。2.2.7 数据挖掘RapidMiner[10]是用于数据挖掘、机器学习、商业预测分析的开源计算环境。提供的数据挖掘和机器学习程序包括：数据预处理、可视化、建模、评估和部署。其数据挖掘过程简单，强大和直观，非常适用于搭建数据挖掘demo，而sparkML则可用于分布式机器学习训练。数据挖掘可用于推荐空载司机乘客高频乘车点、车辆零部件故障预测等。3 交通大数据中心在出租企业业务中的作用交通大数据中心在出租企业中起着最基础的分析作用，比如，本企业出租出行路网，支撑着客流发生吸引点的时空变化分析、客流分流时空分析，相同发生吸引点乘车路径倾向性分析、道路承载客流分析，对车辆的事故、违章预警等也都起着支撑性的作用。下面简单介绍下出租出行路网，及其如何支撑客流发生吸引点的时空变化分析、客流分流时空分析、乘车路径倾向性分析、道路承载客流分析。(1)出租出行路网。通过处理出租车历史位置可生成出租出行所经过所有的路段记录。路段包含了路段的起终点、道路的等级、主路/辅路还有路段节点是平面交叉/立体交叉，本功能支持了以下分析结果的展示，辅助企业制定空载车辆调度策略。(2)客流发生吸引点的时空变化分析。在分析某时间段内出租上下客流的基础上，可在出租出行路网上渲染出不同时间、不同地点客流发生吸引的强度。(3)客流分流时空分析。在分析某时间段内出租乘车客流的基础上，可分析出不同时间、不同乘车地点客流去往不同目的地的流向变化。(4)乘车路径倾向性分析。在分析某时间段内出租乘车客流的基础上，找出乘车地点与目的地均相同的出行，可分析出不同时间、某一乘车地点客流去往相同目的地实际出行路径变化。(5)道路承载客流分析。在分析某时间段内出租乘车客流的基础上，可分析出不同时间、不同路段载客人数变化情况，载客人数越多的路段。4 结语随着大数据、物联网、移动互联联网技术的迅速发展，为出租行业发展带来了革命性的机遇。本文分析了出租企业信息化与业务现状，设计了可满足平台目标的租企业级交通大数据平台的总体架构与技术架构，此架构以为出租企业自设计大数据平台架构提供参考。[参考文献][1]常峰铭.辽宁省道路运输大数据分析平台建设及应用[J].北方交通，2019(5)：92-94.[2]张孜，黄钦炎，冯川.广州市城市智能交通大数据体系研究与实践[J].大数据，2019(4)：113-120.[3]马晓亮.基于Hadoop与Flume的拒绝服务攻击检测研究[J].信息安全研究，2018(9)：799-805.[4]高宗宝，刘丽美，张家铭，等.Spark平台中Kafka偏移量的读取管理与设计[J].软件，2019(7)：118-122.[5]卡劳，肯维尼斯科，温德尔，等.Spark快速大数据分析[M].王道远，译.北京：人民邮电出版社，2015.[6]张利兵.Flink原理实战与性能优化[M].北京：机械工业出版社，2019.[7]LARS G.Hbase权威指南[M].代志远，刘佳，蒋杰，译.北京：人民邮电出版社，2013.[8]EDWARD C, DEAN W, JASON R. Hive编程指南[M].曹坤，译.北京：人民邮电出版社，2013.[9]马特·卡斯特，罗兰·布曼，乔斯·凡·东恩.Pentaho Kettle解决方案：使用PDI构建开源ETL解决方案[M].初建军，曹雪梅，译.北京：电子工业出版社，2014.[10]瓦杰·考图.预测分析与数据挖掘RapidMiner实现[M].严云，译.北京：人民邮电出版社，2018.

文章来源：交通医学网址: http://jtyx.400nongye.com/lunwen/itemid-6095.shtml

上一篇： 大数据背景下《交通数据处理与分析》课程建设
下一篇： 医学教育与医学边缘学科论文_皮肤科临床教学纳入化妆品学的建议与思考

点击在线投稿