随着个人奢侈品和就业机会的快速增加,人们更喜欢驾驶自己的汽车来满足交通需求,而不是使用公共交通。因为参观简单,可以随时用车,这导致交通拥堵严重,红绿灯等待时间过长,成为各大城市的一大难点。这样会影响环境,而且由于大量汽车造成的污染,也会打乱自己的作息时间。
本文的目的是演示如何使用数据分析、机器学习算法和物联网来预测交通流量,创建关于实时交通拥堵的准确数据,并使用导航将车辆分流到不太拥挤的路线。该系统的设计基于摄像机视频的图像分析,并使用移动设备中的GPS来监控特定路线上的交通。如果将这两个因素结合起来,就可以生成有意义的交通拥堵统计数据。下一部分利用提供的数据计算出到达目的地的最有效路线,从而减少交通流量,在短时间内到达。
1.介绍
交通拥挤的主要原因是使用私家车而不是公共交通工具。个人不乘坐公共交通工具的原因可能有很多。然而,这个问题不能仅仅通过鼓励个人使用公共交通而不是他们自己的汽车来解决。
利用机器学习的新发展和各种数据分析算法,我们设计了一个智能解决方案。随着通信和传感技术的快速发展,低成本有效的传感器,更高的数据存储和检索效率,大量数据的低成本存储,我们可以很容易地提取和利用数据。目前的交通控制系统采用预先编程的信号变化时间间隔机制,数据分析的主要问题是收集相关和可用的数据,以便设计解决方案。不断更新的数据必须上传到数据模型,算法生成的预测技术必须能够从这些不断增长的数据中提供正确的报告。
该项目的主要数据来源是众包数据。如今,随着汽车工业的技术进步,GPS传感器正在应用于汽车的智能应用,从汽车上收集的GPS数据可能非常有利于数据模型的开发。GPS(全球定位系统)确定车辆的确切位置,根据所有车辆的位置,可以预测是否出现交通拥堵。这些数据对于确定某个地方的流量或密度特别有价值。通过将特定汽车的位置与该位置方圆100米范围内的汽车数量进行比较,可以估算出交通密度。车辆的速度在这方面也有很大的影响。另一个有用的数据源是安装在路线上的视频监控摄像头。
图像分析技术可用于估计路线上的汽车数量。OpenCV是计算机视觉相关函数的集合,主要用于实时计算机视觉。这可用于实时视频分析,以计算穿越的车辆数量。最后,我们可以通过车辆通过视频监控的时间来计算交通速度,也可以通过计算道路上车辆的数量和速度来计算交通密度。
拟议架构的一个主要组成部分已在平台原型中修订,该平台特别依赖于Kafka,这是有效处理大型数据流的有效工具。由于Kafka的内置机制,记录评估是可扩展的,即可以扩展到大量记录源,同时以过高的速度发送记录,并且是可靠的,即可以容忍硬件故障而不丢失记录。
本文的其余部分组织如下:在第二部分,我们概述了现有的交通控制机制和使用各种技术的智能方法。在第三部分中,详细解释了所提出的体系结构及其克服当前智能交通管理的方法。在第四部分,我们讨论了结论和预期结果,并提出了进一步的研究建议。
2.背景
智能交通管理系统的特点
这项工作的目标是使用Kafka最流行的大数据技术之一-开发一个可扩展的实时交通管理系统。因此,考察当前控制系统与卡夫卡流分析的异同是非常重要的。观察情况(数据收集)和执行确定的控制策略是实时交通控制系统的两个基本组成部分(数据处理和信息传播)。本地系统检查实时输入的数据,然后将这些数据进行组合和处理,以确定方案(如事件检测)。当超过阈值时,使用一种已建立的技术来优化控制器的目标函数。在某些情况下,中央系统制定了战略目标,而地方系统足够灵活,能够适应不断变化的情况。最流行的流量控制技术是反馈回路和模型预测控制(MPC ),然而,它们中的大多数具有单一目标,这需要有目的地感知数据(即,基本流量参数)。
大数据分析
通过使用一组称为集群的存储和处理单元,大数据分析技术根据必须检查的数据的大小和速度进行扩展。这克服了单CPU和硬盘容量的限制,但增加了相关工具配置和操作的复杂度。大数据分析的核心前提是“将计算带入数据”:大数据集群中的每台计算机都按照自己的本地存储数据集(map)工作;然后对单台计算机的结果进行汇总和(reduce)。
不同的大数据分析解决方案不断发展,以支持各种应用和用户需求。主要的对比是在工具之间,这些工具对历史数据执行所谓的批量分析。这些工具通常存储在Hadpp分布式文件系统(HDFS)或NoSQL数据库(如Cassandra、HBase)中。Hadoop的Spark,MapReduce,Tez,各种类似SQL的前端(比如Hive,Pig)都是批量分析技术的例子。另一方面,一些工具使用流分析,即当数据达到预设的时间范围时分析数据的那些工具。当必须快速做出数据驱动的选择时,这是非常理想的。Flink、Kafka Stream(Kafka扩展)和Spark Streaming都是该领域值得注意的技术。
3.大数据分析方法
机器学习是大数据生态系统中应用最广泛的建模和分析技术,因为它可以从海量数据中提取模式和模型。机器学习理论也广泛应用于其所在部门的数据分析。根据可用于学习的数据集的完整性,机器学习算法可以分为有监督、无监督和强化学习方法。近年来,随着人工智能的快速发展,强大的深度学习模式被应用到智能交通系统中。
3.1监督学习
监督学习是机器学习的一个子集。计算机在有标签的数据集上训练,然后根据这些数据预测输出。标记数据表示某些输入数据已被标记为必需的输出。在监督学习中,呈现给机器的训练数据起到监督作用,指导机器如何准确预测输出。它采用了同样的原则,即学生在老师的监督下学习。监督学习是向机器学习模型提供适当的输入和输出数据的过程。监督学习算法的目标是找到将输入变量(X)映射到输出变量(Y)的映射函数。
3.2无监督学习
在一些模式识别任务中,训练数据包括一组输入向量X,这些向量没有相关的目标值。这种无监督学习任务的目标可能是定位数据中相似实例的聚类,这被称为聚类过程,或者计算数据在空间中的分布,这被称为密度估计。换句话说,在n个样本空间x1到xn的情况下,每个样本都不提供真实的类别标签,从而导致所谓的无监督学习。
无监督学习的主要问题是:
无监督学习比监督学习更难。
没有标签,我们怎么知道这些发现是否有意义?
允许专业人员检查结果(外部评估)
定义聚类目标函数(内部评估)
无监督学习可以进一步分为两类:
参数化无监督学习:在这种情况下,我们假设数据是带参数分布的。它基于这样的假设,即样本数据来自一个总体,该总体具有由预定义的参数集定义的概率分布。从理论上讲,正态分布族的每个成员都具有相同的形式,并且通过均值和标准差来参数化。也就是说,如果你知道分布的均值和标准差,并假设它是一个正态分布,你就可以计算出任何未来观测值的概率。它涉及到高斯混合模型的构建和使用期望最大化方法来预测样本的分类。这个例子比传统的监督学习困难得多,因为没有对应的标签,所以没有合适的正确性度量来验证结果。
参数无监督学习:在无监督学习的非参数版本中,数据被聚类,每个组集(理想情况下)包含关于数据中表示的类别和类别的信息。这是建模和分析小样本数据的常用技术。与参数模型相比,非参数模型不需要建模者对样本的分布做任何假设,因此有时被称为非分布技术。
3.3深度学习
深度学习模型可以取得比传统机器学习模型更好的性能。它们已经广泛应用于智能交通管理系统中。在交通流领域,深度学习模型已经成为预测交通流密度的常用工具。深度学习模型比典型的人工神经网络具有更广泛的系统功能和更复杂的设计,因此它可以优于典型的机器学习模型。它们已在其系统中广泛实施。
比如利用出租车的GPS数据,利用有限深度的玻尔兹曼机和递归神经网络架构来模拟预测交通拥堵的增长。使用大数据后,使用深度神经网络进行缺陷诊断。输入由从所有高速公路接收的数据组成。考虑到交通流量的时间关系,使用先前时间间隔的数据,即xt-1,xt-2,…,XT-1,来预测时间间隔t的交通流量。
- 卡夫卡
从技术上讲,事件流是从事件流形状内的事件源(如数据库、传感器、蜂窝设备、云服务和软件程序)实时拍摄统计数据的实践:这些事件流被持久存储,以供以后检索;除了实时追溯操纵、处理和响应当前事件之外;并且根据需要将场合流路由到不同的地方。因此,事件流确保统计数据的不断调整和解释,以便在正确的时间将正确的事实应用于正确的地点。
4.大数据收集的来源
来自GPS的大数据GPS是最广泛使用的追踪行踪的方法。通过GPS定位监控,可以更有效、更安全地获取交通数据。结合地理信息系统(GIS)或其他地图显示技术,GPS提供了收集数据的潜在工具,获得的数据可用于解决各种交通挑战,包括出行模式识别、出行延迟评估和交通监控。
闭路电视图像处理
许多社区现在都有负担得起的视频监控系统,通常称为闭路电视(CCTV)。近年来,它们取得了显著的扩展,通常包括不同分辨率、挂载点和帧率的相机。央视一周七天,一天24小时运行,产生了大量的数据,这就是所谓的“大数据”。其中,这些数据可用于为自动流量监控系统提供基础。
该系统主要由两部分组成:
目标检测
多目标跟踪
目标检测
到目前为止,大多数目标检测器都是基于卷积神经网络(CNN)的,可以分为两类:单级检测器和两级检测器。单级检测器通常非常快,它可以在单个网络操作中预测对象包围盒和类。YOLO和SSD是两种著名的单级探测器。当目标占据图片的大部分时,这些设计表现得特别好。著名的UA-DETRAC车辆检测数据集就是这类数据的一个例子。Mitriy Anisimov和Tatiana Khanova使用这些数据证明,一个适当开发的类似SSD的系统探测器可以在当前CPU上以每秒40帧以上的速度工作,同时保持可接受的精度。Yov2架构是速度和精度之间良好权衡的另一个例子。它通过使用锚聚类、附加损失归一化和多层功能融合方法来优化车辆识别。
多目标跟踪
由于前面提到的目标检测器精度的提高,检测跟踪模式已经成为多目标跟踪(MOT)任务的实际标准。在这种范式中,跟踪被定义为数据关联(DA)问题,其目标是将多帧中的模糊检测结合到扩展的轨迹中。
传统的检测跟踪只依赖于检测器的运动信息,优化方法被用来解决DA问题。多假设跟踪(MHT)和联合预测数据关联滤波器(JPDAF)是众所周知的例子。虽然这些算法逐帧处理相关性问题,但是它们的组合复杂度随着被监控对象的数量成指数增加,这使得它们不适合实时跟踪。另一方面,最近的排序跟踪器表明,具有卡尔曼滤波器运动预测的基本匈牙利算法可以在保持可接受的性能的同时实现实时处理速度。
传感器的大数据
部署在智能交通系统中的传感器可以获取诸如车速、车辆密度、交通流量和行驶时间等数据。道路传感器(如红外和微波探测器)已经发展到收集、计算和传输交通数据。传感器数据采集可以分为三类:路边数据、浮动车数据和广域数据。术语“道路数据”主要指由位于路边的传感器收集的数据。多年来一直采用感应磁环、气动路管、压电环阵列、微波雷达等传统路侧传感器。随着技术的最新进步,下一代路边传感器,包括超声波和声学传感器系统、磁性车辆检测器、红外系统、激光雷达和视频图像处理和检测系统,正逐渐普及。FCD(floating Vehicle Data)主要是指通过嵌入在车辆中的特定检测器,在ITS系统的不同位置采集的车辆运动数据。一些车载传感器为路线选择和估计提供可靠和有效的数据。流行的FCD传感器技术包括自动车辆识别(AVI)、车牌识别(LPR)和应答器,如检测汽车和电子收费标签。广域数据是指利用各种传感器监测手段(包括光度处理、录音、视频处理和天基雷达)在大范围内获得的交通数据。
目前,汽车部门正在引入传感器来监控车辆的各个方面。使用3D Mapper评估路线并检测内容,3D Mapper用于识别自动驾驶汽车中的障碍物。这项技术用于机器学习,以增强对形式和运动的识别和分类。车辆的这些数据可以通过物联网进行沟通,这可能非常有利于为智能交通管理系统的分析提供大数据。
社会化媒体
社交媒体(也称为社交网络服务或社交网站)是Web 2.0的产品,它将互联网从一个信息领域转变为一个互动和有影响力的领域。
社交媒体的基本含义因其广泛的服务而引人入胜。
我们可以总结如下:“社交媒体是一种基于网络的应用,它使用户能够相互交流。
为了保持一致,我们将使用Boyd和Ellison对社交媒体的定义,该定义将其定义为一种服务,使用户能够:a)维护公共或半公共个人的个人形象;b)通过与其他用户联系建立社交网络;以及c)探索和响应连接。
相比之下,考虑到学习环境,Kietzmann等人开发了一种细胞结构,由七种不同的社交媒体功能组成:
a)存在
b)共享
对话
d)分组
e)声誉
f)身份
g)与各社交媒体网站对接,争取以上搭配,优先考虑三四个功能。
出租车服务的开源数据
随着客户越来越多地使用优步和Lyft等打车服务,应用程序正在使用的汽车和交通路线数据可用于提供数据模型和预测交通,从而在预测交通时提供更好的结果。来自此类应用程序的数据可能是可靠的,也可能是准确的,因为驱动程序遵循应用程序中显示的路径,并且数据会不时更新。由此可以得到城市中交通的实时变化数据或者实时更新。这些数据也可以用来训练模型,因为有些数据每天都会重复,有些数据可能更喜欢每天打车上班。
建筑物
出行速度预测一直是最难解决的问题之一。个人数据源(如闭路电视摄像头和交通传感器数据)传统上由控制人员用于回归或时间序列预测模型。这些方法不使用大量不同的运输数据,这些数据可以使用当代数据、工程和机器学习工具进行分析。通过摄取和整合大量不同的数据,可以使用前沿的深度学习来创建典型运行环境下的快速和高性能的路网速度预测。当道路网络运行不正常时,通常会出现最令人着迷的情况。如遇特殊事件、道路施工或交通事故。由于缺乏训练数据,人工智能模型传统上很难处理这种偶然和不规则的事件。在某些情况下,可以实现几种生成高质量预测的方法,包括使用经典交通模拟来分析关键的非重复性事件。该模拟可以运行许多场景,并使用预先配置的反应策略来比较旅行者的结果。
数据引擎分析和/或控制由每个客户建立的逻辑,其范围可以从基本的反馈循环到复杂的机器学习算法。此外,客户可以选择获取分析引擎输出的时间间隔。接收数据时,使用用户定义的损耗函数来处理数据。这些功能是特定的主题。例如,在速度数据的情况下,合适的减速器函数可以计算输入数据的移动平均值。在每个时间段结束时运行单独的评估函数。评估人员可以访问所有流失的输出:在这里,他们可以根据各种流失的综合分析做出判断。在自动流量控制的情况下,评估者通过改变提供者有条件地激活流量系统的修改。
深度学习算法在基于该算法的预测模型中实现。Essien提出的框架由八层双向LSTM堆栈自动编码器组成。ReLU作为所有相关层(不包括输出层)的激活函数,在学习过程中注入非线性。深度学习网络的性能高度依赖于必须通过称为超参数优化或超参数优化的过程建立的重要参数。为了确定本次调查的理想超参数集,我们采用了网格搜索法。
该算法包括以下评估步骤:
输入:收集特定区域的数据系列。
流出量:该区域特定道路的预测交通流量。
将获得的实际数据按70: 30的比例进行训练和测试。
在训练数据中选择B的折返步长的大小,在T处创建折返观测,称为x1,x2,x3,…
Xb作为输入,xb+1作为预期值yt
建立模型参数、权重wt和偏移量c的随机初始化程序
模型采用前向贪婪层的wise方法进行训练,模型参数通过双向处理进行更新。
传播后算法优化器用于更新模型。
最小化功能损失
使用另一批训练数据的测试数据进行模型验证和后续的再训练过程。
代表,直到训练集完成。
返回预测y的输出序列。
6.挑战
数据保密
大数据时代,最令人困惑和担忧的问题是隐私。在数据传输、存储和使用过程中,个人信息可能会被破坏。历史上,从交通网络获得的数据是非个人的,例如汽车位置和交通流量数据。然而,随着公共和商业部门收集的个人数据的增加,隐私问题也越来越受到关注。比如人和车辆的位置可以随时采集。如果这些数据没有得到安全的保护,那些窃取它们的人就会对数据所有者造成伤害。因此,隐私保护对于ITS中大数据应用非常重要。为了避免非法披露个人和私人信息,各国政府应制定全面的数据隐私规则,涵盖哪些数据可以公布、数据公布和使用的广度、数据分发和数据可访问性的基本原则。运输机构应严格限制个人数据的定义,加强数据安全认证管理,使用更复杂的算法提高数据安全水平。
处理能力
对于智能交通管理系统中的大数据应用,时效性至关重要:这些应用包括交通数据预处理、交通状态识别、实时交通控制、动态路径诱导和实时公交调度。来自各种来源的各种形式的交通数据必须与历史数据进行比较,然后快速处理。数据处理系统必须能够处理更复杂和不断增长的数据。如何保证处理如此巨大和快速的数据的及时性是一个重大问题。最近出现了很多支持实时数据源的通用大数据框架,包括Apache Storm、Apache Flink、Apache Samza、Apache Spark Streaming、Kafka Stream等。此外,还为ITS创建了一个特殊的大数据处理框架,包括实时交通管理平台和对路线平均速度和拥堵区域的预测。这些框架为实时数据处理提供了有效的解决方案。将这些服务部署在云平台中进行实时监控和反馈,需要大量的处理能力、存储和稳定的互联网连接,将批量数据文件跨不同平台传输,进行存储和处理。
使用电源
必须创建一个持续的监控系统,以便始终收集数据。这可以确保预测是正确的,并且模型将更新可能影响模型评估的任何事故或事件。强大的电力供应使系统一周七天,一天24小时运转。
7.结论
本文提出了一个完整的、可适应的基于大数据分析的实时交通管理架构,并对其进行了深入研究。架构是对领域需求进行系统检查的结果。实时深度学习算法结合针对数据流的kafka流或spark流服务,可以导致高选择性流量预测模型的开发。这项研究的主要弱点是缺乏真实世界的数据。通过用真实数据训练模型,我们可以显著提高模型的效率。数据收集是一个主要的限制因素。维护如此大量的数据需要大量的工作和管理机制。
虽然这很简单,但这个真实世界的例子需要分析来自各种来源的巨大而多样的数据流。虽然使用该平台仅实施传统的控制措施需要相当大的努力,但这种多目标控制平台对于新兴的自动驾驶车辆来说非常重要,特别是同时协调所有组件之间的控制措施,例如对单个车辆的运动进行战略决策。随着自动驾驶汽车技术的进步,这种模型可能会帮助汽车预测交通流量,并重定向到另一条路线。因此,可以进行更多的研究,将这项技术与无人驾驶汽车和其他车辆结合起来,以便在交通中断最小的情况下智能地将用户路由到他们的目的地。另一个需要研究的领域是物联网在智慧城市建设中的应用,这可能会大大有助于为该模型收集真实世界的数据。
本文章来源于互联网,如有侵权,请联系删除!
摘要 面向应急管理平台中感知网络缺少地面基站时的关键区域信息传输需求,考虑应急物联网节点空间定位存在的不确定性,提出基于无人机(UAV, unmanned aerial vehicle)的物联网空基中继鲁棒优化方法。首先,建立此类物联网的系统模型;其次,根据建…