Skip to content

qwe707/Calibration--reinforcement-learning

Repository files navigation

标定与强化学习 (Calibration and RL)

项目介绍

本项目标定主要为了指导仿真软件(对于中国交通实验区域的特性),标定到底是什么呢? 简而言之,你在用交通仿真软件的时候,对于每个人他都是统一的(统一牌方便面),标准的。那么怎么把他变成自己想要的呢,不能像训练大模型那样吧(~~) 那么!重点来了:到底怎么能变成我想要的呢,ok你可以区实际区域采集数据,把他的交通特征拿过来,看看跟驰状态,换道状态啥的,这个车你是追尾我啊?还是想超我就超我啊(┑( ̄▽  ̄)┍) 对于这两种状态其实国内国外专家大佬已经很有研究了,那咱们现在的意义是什么(研究完了还研究呢??) 国内对于SUMO的研究太少!(没错,我研究的SUMO),国外对于中国的交通特征不熟(你小子站那!),我就是给他结合一下,既用SUMO又要考虑中国的交通流特征(对于限速的不遵从率太高),简而言之就是 你限你的我跑我的,那么怎么复现这种行为呢? 采集到速度特征,对于SUMO来说,有个参数叫做speedfactor,里面的参数就可以标定这个限速服从率,那么老子(ヽ(ˋ▽ˊ)ノ)拿过来跟跟驰换道10种参数一块标定,形成12种参数标定大法(欲练神功?) 送张图12个参数

接下来我会将12个参数放到搅拌机里用SPSA牌子的算法,给他搅拌让仿真产出的值和实际观测的值差值最小(RMSE指标),之后有用速度累积直方图验证扒拉扒拉,流量验证,算法重启(这个倒是忘了说,为了防止SPSA这小子陷入一个局部最优走不出来了)git status 然后就欧克了(我绝对不会说我累了懒得写了,对就是这样!

环境配置 (Requirements)

  • Python 3.8+
  • PyTorch
  • Numpy

如何运行 (Usage)

  1. 克隆代码
  2. 运行 main.py

About

Calibration and rl标定与强化学习

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages