当前位置: 首页> 专利交易> 详情页
    待售中

    一种基于抽象模块处理的无人机运动规划方法及系统[ZH]

    专利编号: ZL202508120059

    收藏

    拟转化方式: 转让;普通许可;独占许可;排他许可;作价投资;质押融资;开放许可;其他(具体合作形式可协商)

    交易价格:面议

    专利类型:发明专利

    法律状态:实审

    技术领域:非汽车专利

    发布日期:2025-08-12

    发布有效期: 2025-08-12 至 2043-03-17

    专利顾问 — 伍先生

    微信咨询

    扫码微信咨询

    电话咨询

    咨询电话

    18273488208

    专利基本信息
    >
    申请号 CN202310283625.2 公开号 CN116307323A
    申请日 2023-03-17 公开日 2023-06-23
    申请人 深圳北理莫斯科大学;北京理工大学 专利授权日期 0001-01-01
    发明人 王正杰;侯俊竹;余缙;袁晓东;简中华;郭彦懿 专利权期限届满日 2043-03-17
    申请人地址 518172 广东省深圳市龙岗区大运新城国际大学园路1号 最新法律状态 实审
    技术领域 非汽车专利 分类号 G06Q10/047
    技术效果 其他技术效果 有效性 审中(公开、实审)
    专利代理机构 北京睿智保诚专利代理事务所(普通合伙) 11732 代理人 刘晓静
    专利技术详情
    >
    01

    专利摘要

    本发明公开了一种基于抽象模块处理的无人机运动规划方法及系统,应用于无人机路径规划技术领域。包括:步骤1:获取无人机原始传感信息;步骤2:采用抽象模块对原始传感信息进行处理,提取与无人机运动规划强相关特征作为中间表征信息;步骤3:将经抽象模块处理后的中间表征信息作为状态输入至以算法为框架的无人机运动规划模型;步骤4:训练基于SAC算法的无人机运动规划模型,得到训练好的基于SAC算法的无人机运动规划模型;步骤5:利用练好的基于SAC算法的无人机运动规划模型,得到无人机运动规划路径。本发明保证了无人机具备强探索性与强鲁棒性。
    展开 >
    02

    专利详情

    技术领域 本发明涉及无人机路径规划技术领域,更具体的说是涉及一种基于抽象模块处理的无人机运动规划方法及系统。 背景技术 近年来,城市作战已成为现代战争的主要作战形态之一,使用无人机作为侦察与打击武器是城市作战常用手段,在无GPS信号和完整地图信息的阻止环境下,无人机如何实现自主运动规划显得尤为重要。目前路径规划算法主要可分为传统规划算法与智能规划算法,这些算法路径搜索能力强,但不具备对复杂环境快速响应能力,收敛速度慢,需要事先标记轨迹才能实现路径规划,因此并不适用于复杂环境。而深度强化学习方法具备无需全局地图、学习能力强、对传感器精度依赖性低等优点,十分适合解决在复杂未知环境中进行高速穿行机动的无人机的自主运动规划问题。 深度强化学习根据智能体是否能获得环境模型可分为基于模型的强化学习和无模型的强化学习,针对城市作战条件,无模型强化学习算法更广泛地被用于智能装备中。但无模型强化学习算法存在如何让智能体对环境的探索和对已获取经验的开发这相矛盾的两者之间进行权衡的问题,并且深度强化学习网络的状态维度越高,越难以通过设计合适的奖励函数使整个马尔可夫决策过程接近于一个易于使用梯度下降法优化的凸问题,网络收敛性能及鲁棒性能也会明显降低。 因此,提出一种基于抽象模块处理的无人机运动规划方法及系统,来解决现有技术存在的困难,是本领域技术人员亟需解决的问题。 发明内容 有鉴于此,本发明提供了一种基于抽象模块处理的无人机运动规划方法及系统,通过在以SAC算法作为无人机深度强化学习运动规划模型框架的基础上,在感知端增加抽象模块,实现对运动规划模型状态维度的降低,从而解决深度强化学习运动规划模型因状态维度过高而导致的收敛性差、虚拟与现实环境传感器差异、传感器的鲁棒性等问题。 为了实现上述目的,本发明提供如下技术方案: 一种基于抽象模块处理的无人机运动规划方法,包括以下步骤: 步骤1:获取无人机原始传感信息; 步骤2:采用抽象模块对原始传感信息进行处理,提取与无人机运动规划强相关特征作为中间表征信息; 步骤3:将经抽象模块处理后的中间表征信息作为状态输入至以算法为框架的无人机运动规划模型; 步骤4:训练基于SAC算法的无人机运动规划模型,得到训练好的基于SAC算法的无人机运动规划模型; 步骤5:利用练好的基于SAC算法的无人机运动规划模型,得到无人机运动规划路径。 上述的方法,可选的,步骤1中无人机原始传感信息包括:深度图像和IMU数据。 上述的方法,可选的,步骤2中的中间表征信息包括:目标的二维特征、障碍的三维特征、无人机的运动轨迹特征。 上述的方法,可选的,步骤2包括以下步骤: 步骤2-1:使用YOLOv5s网络模型对深度图像进行识别,提取得到目标的二维特征信息; 步骤2-2:使用FCOS3D网络模型对深度图像进行识别,提取得到障碍的三维特征信息; 步骤2-3:使用VINS-Mono网络模型对二维特征信息和三维特征信息以及IMU数据进行识别,提取得到无人机的运动轨迹的特征信息。 上述的方法,可选的,步骤2-1中的YOLOv5s网络模型包括输入端、基准网络、Neck网络和Head输出端。 上述的方法,可选的,步骤2-2中的FCOS3D模型主要由三个部分组成:用于特征提取的骨干部分、用于多级分支构造的颈部部分和用于密集预测的检测头。 上述的方法,可选的,步骤2-3中的VINS-Mono初始化阶段,从单目相机获取图片,并对所采集的图片进行自适应直方图均衡化处理,基于FAST算法提取图片中的Harris特征点,采用KLT金字塔光流算法对特征点进行跟踪。 上述的方法,可选的,步骤4包括以下步骤: 步骤4-1:定义环境奖励函数,初始化SAC策略网络和价值网络参数,奖励函数如下式: 其中,r(st,at)为当前时刻的环境奖励,rarrive为无人机到达目标时的奖励,rcollide为无人机发生碰撞时的奖励;dt-1为无人机距离目标距离,dt为当前时刻无人机距离目标距离,sr为无人机与目标位置之间的相对关系,此状态用于定义无人机的目标方向; 步骤4-2:根据SAC算法运动规划策略产生动作; 步骤4-3:执行4-2动作,并根据环境转移到下一状态,将状态转移存入经验回放池; 步骤4-4:更新网络参数,实现对价值网络和策略网络的更新;对价值网络使用软贝尔曼方程更新,其公式为: 其中,α为温度系数,用来控制策略熵的比重,Qπ(st,at)为t时刻的价值网络输出,Qπ(st+1,at+1)为t+1时刻的价值网络输出,-αlog(π(at+1|st+1))为动作的熵,π为策略网络,为t+1时刻在状态下采取动作后所得到的价值网络输出与动作的熵的和的期望,r(st,at)为t时刻的奖励,γ为奖励的折扣因子; 对策略网络更新采用最小化策略与Q函数的KL散度的方式,使策略的分布接近于Q函数的分布,其公式为: 其中,πnew为新的策略网络,πold为旧的策略网络,为t时刻的价值网络输出分布,用来规范化分布,π′(·|st)为策略网络输出分布,为最小化KL散度的策略π即为此算法选择的最优策略,exp是将每一个动作赋值为特定概率,使其符合Q值分布,进而满足随机策略要求。 一种基于抽象模块处理的无人机运动规划系统,应用上述的一种基于抽象模块处理的无人机运动规划方法,包括依次连接的图像处理模块、原始信息处理模块、表征信息处理模块、训练模块、路径规划模块;其中, 图像处理模块:获取无人机原始传感信息; 原始信息处理模块:采用抽象模块对原始传感信息进行处理,提取与无人机运动规划强相关特征作为中间表征信息; 表征信息处理模块:将经抽象模块处理后的中间表征信息作为状态输入至以算法为框架的无人机运动规划模型; 训练模块:训练基于SAC算法的无人机运动规划模型,得到训练好的基于SAC算法的无人机运动规划模型; 路径规划模块:利用练好的基于SAC算法的无人机运动规划模型,得到无人机运动规划路径。 经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于抽象模块处理的无人机运动规划方法及系统:在无GPS信号和完整地图信息的阻止环境条件下,使用深度强化学习SAC算法作为无人机完成自主导航与避障任务的动作选择策略,这很好地权衡了强化学习智能体探索未知情况与开发已有经验之间的矛盾,保证无人机具备强探索性与强鲁棒性,防止无人机过早收敛到局部最优解。同时,在运动规划模型感知端增加了抽象模块对原始传感信息进行处理,提取与无人机运动规划强相关的目标的二维特征、障碍的三维特征、无人机的运动轨迹特征作为深度强化学习运动规划模型的状态,有效降低原始传感信息维度,从而解决深度强化学习运动规划模型因状态维度过高而导致的收敛性差、虚拟与现实环境传感器差异、传感器的鲁棒性等问题。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。 图1为本发明提供的一种基于抽象模块处理的无人机运动规划方法的流程图; 图2为本发明提供的一种基于抽象模块处理的无人机运动规划系统结构图; 图3为本发明实施例提供的在AirSim中搭建的无人机训练与测试环境图; 图4为本发明实施例提供的在Gazebo仿真环境中为Turtlebot3搭建的训练环境图; 图5为本发明实施例提供的无人机抽象模块与SAC结合的算法测试实验轨迹图。 具体实施方式 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。 参见图1所示,本发明公开了一种基于抽象模块处理的无人机运动规划方法,包括以下步骤: 步骤1:获取无人机原始传感信息; 步骤2:采用抽象模块对原始传感信息进行处理,提取与无人机运动规划强相关特征作为中间表征信息; 步骤3:将经抽象模块处理后的中间表征信息作为状态输入至以算法为框架的无人机运动规划模型; 步骤4:训练基于SAC算法的无人机运动规划模型,得到训练好的基于SAC算法的无人机运动规划模型; 步骤5:利用练好的基于SAC算法的无人机运动规划模型,得到无人机运动规划路径。 具体的,步骤S5中使用策略网络输出1个维度的油门量、3个维度的姿态角共4个维度的连续动作,最终得到规划路径。 具体的,使用该抽象模块能够减小虚拟和现实传感信息之间差距的证明如下: 在不考虑执行机构差异的前提下,对于一个利普西茨连续的策略π,其虚拟和现实之间的距离的上限如下: 式中,πr为智能体在虚拟环境中的策略,πs为智能体在现实环境中的策略,J(πr)为虚拟环境的目标函数,J(πs)为现实环境中的目标函数,为智能体在现实环境中策略网络的更新延迟,用于延迟更新目标网络,K为利普西茨常数,ρ为概率分布,为DW(M,L)的期望值,M(z|s):S→O表示虚拟环境中的观测模型,L(z|s):S→O表示现实环境中的观测模型,DW(M,L)为策略在虚拟环境观测空间与现实环境观测空间的下限距离。由式(5)可证明式(4): 式中,DW(πr,πs)为策略在虚拟环境动作空间与现实环境动作空间的下限距离,DW(M,L)为策略在虚拟环境观测空间与现实环境观测空间的下限距离,γ为奖励的折扣因子,π(or,os)为原始传感信息数据下的策略,dp为动作空间的距离,do为观测空间的距离,K为利普西茨常数。 再考虑抽象模块对输入的观测值的影响。设f为观测值的映射,映射f通常是依据任务需求所设计的方法,同时不受干扰因素的影响。抽象模块对输入的观测值的影响满足如下关系: DW(f(M),f(L))≤DW(M,L) (6) 根据式(4)与式(6)证明可得,在虚拟环境与现实环境中,使用一个加入了抽象模块的策略πf:f(O)→U,即f(M)、f(L),比直接使用原始传感信息数据的策略πO:O→U,即M、L,差距要更小。 进一步的,步骤1中无人机原始传感信息包括:深度图像与IMU数据。 进一步的,步骤2中的中间表征信息包括:目标的二维特征、障碍的三维特征、无人机的运动轨迹特征。 进一步的,步骤2包括以下步骤: 步骤2-1:使用YOLOv5s网络模型对深度图像进行识别,提取得到目标的二维特征信息; 步骤2-2:使用FCOS3D网络模型对深度图像进行识别,提取得到障碍的三维特征信息; 步骤2-3:使用VINS-Mono网络模型对二维特征信息和三维特征信息以及IMU数据进行识别,提取得到无人机的运动轨迹的特征信息。 具体的,各网络主要由CBL、Res unint、CSP1X、CSP2X、FOCUS、SPP这6类模块组成。其中,CBL模块由Conv+BN+Leakyrelu激活函数组成。Res unint模块借鉴ResNet网络中的残差结构,用来构建深层网络,CBM是残差模块中的子模块。CSP1X模块由CBL模块、Res unint模块以及卷积层、Concate组成而成。CSP2X模块由卷积层和X个Res unint模块Concate组成而成。Focus模块首先将多个slice结果Concat起来,然后将其送入CBL模块中。SPP模块采用1×1、5×5、9×9和13×13的最大池化方式,进行多尺度特征融合。 具体的,骨干部分使用了预训练模型ResNet101和可变形卷积进行特征提取,其中第一个卷积块的参数固定。颈部部分使用特征金字塔网络,用于检测不同尺度物体。共享检测头的设计遵循RetinaNet和FCOS的常规设计。每个共享头由4个共享卷积块和用于不同目标的小检测头组成。 具体的,将已经提取到的特征点存放进一个队列,使用五点法求出本质矩阵,使用随机一致性采样剔除队列中不匹配的特征点。进行IMU的预积分,将世界坐标系转换到本体坐标系。初始化完成后,采用基于滑动窗口的非线性优化方法对本体的状态,即滑动窗口中图像关键帧的IMU的位置、速度、旋转、加速度偏差量和角速度偏差量进行估计。当系统检测到回环,即与之前某一帧建立位姿约束关系时,在代价函数中添加闭环检测得到的视觉测量残差部分,对本体的状态进行重定位,以减小累积误差。 进一步的,步骤2-1中的YOLOv5s网络模型包括输入端、基准网络、Neck网络和Head输出端。 进一步的,步骤2-2中的FCOS3D模型主要由三个部分组成:用于特征提取的骨干部分、用于多级分支构造的颈部部分和用于密集预测的检测头。 进一步的,步骤2-3中的VINS-Mono初始化阶段,从单目相机获取图片,并对所采集的图片进行自适应直方图均衡化处理,基于FAST算法提取图片中的Harris特征点,采用KLT金字塔光流算法对特征点进行跟踪。 进一步的,步骤4包括以下步骤: 步骤4-1:定义环境奖励函数,初始化SAC策略网络和价值网络参数,奖励函数如下式: 其中,r(st,at)为当前时刻的环境奖励,rarrive为无人机到达目标时的奖励,rcollide为无人机发生碰撞时的奖励;dt-1为无人机距离目标距离,dt为当前时刻无人机距离目标距离,sr为无人机与目标位置之间的相对关系,此状态用于定义无人机的目标方向; 步骤4-2:根据SAC算法运动规划策略产生动作; 步骤4-3:执行4-2动作,并根据环境转移到下一状态,将状态转移存入经验回放池; 步骤4-4:更新网络参数,实现对价值网络和策略网络的更新;对价值网络使用软贝尔曼方程更新,其公式为: 其中,α为温度系数,用来控制策略熵的比重,Qπ(st,at)为t时刻的价值网络输出,Qπ(st+1,at+1)为t+1时刻的价值网络输出,-αlog(π(at+1|st+1))为动作的熵,π为策略网络,为t+1时刻在状态下采取动作后所得到的价值网络输出与动作的熵的和的期望,r(st,at)为t时刻的奖励,γ为奖励的折扣因子; 对策略网络更新采用最小化策略与Q函数的KL散度的方式,使策略的分布接近于Q函数的分布,其公式为: 其中,πnew为新的策略网络,πold为旧的策略网络,为t时刻的价值网络输出分布,用来规范化分布,π′(·|st)为策略网络输出分布,为最小化KL散度的策略π即为此算法选择的最优策略,exp是将每一个动作赋值为特定概率,使其符合Q值分布,进而满足随机策略要求。 与图1所述的方法相对应,本发明还提供了一种基于抽象模块处理的无人机运动规划系统,用于对图1中方法的具体实现,其结构示意图如图2所示,包括依次连接的图像处理模块、原始信息处理模块、表征信息处理模块、训练模块、路径规划模块,其中, 图像处理模块:获取无人机原始传感信息; 原始信息处理模块:采用抽象模块对原始传感信息进行处理,提取与无人机运动规划强相关特征作为中间表征信息; 表征信息处理模块:将经抽象模块处理后的中间表征信息作为状态输入至以算法为框架的无人机运动规划模型; 训练模块:训练基于SAC算法的无人机运动规划模型,得到训练好的基于SAC算法的无人机运动规划模型; 路径规划模块:利用练好的基于SAC算法的无人机运动规划模型,得到无人机运动规划路径。 具体实施例: 仿真环境为:Ubuntu 18.04LST操作系统,Airsim仿真平台。 本发明考虑的是三维地图模型,坐标系为平面坐标系。图3为在Arisim中搭建的无人机运动规划模型训练场景与测试环境。本发明在开展无人机运动规划算法前,预先对基于深度强化学习的地面机器人路径规划方法进行了研究,该研究主要基于Gazebo仿真器对地面机器人Turtlebot3路径规划模型进行训练,图4为在Gazebo仿真环境中为Turtlebot3搭建的三种不同复杂度的场景的效果图。最后,将训练好的运动规划模型放入由Airsim搭建的虚拟测试场景中进行测试实验,实验轨迹参见图5所示,其中,黑色表示障碍物,橙色为超时位置,蓝色表示运动规划模型测试轨迹,绿色为起始位置,黄色为目的地位置,紫叉为发生撞击位置。 本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。 对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。 一种基于抽象模块处理的无人机运动规划方法及系统
    展开 >
    交易服务流程
    >

    挑选中意的板块

    ----

    客服确认选择专利的交易信息和价格并支付相应款项

    办理转让材料

    ----

    协助双方准备相应的材料

    签订协议

    ----

    协助卖家签订协议

    办理备案手续

    ----

    买卖双方达成一致后

    交易完成

    ----

    交易完成可投入使用

    过户资料 & 安全保障 & 承诺信息
    >

    过户资料

    买卖双方需提供的资料
    公司 个人
    买家 企业营业执照
    企业组织机构代码证
    身份证
    卖家 企业营业执照
    专利证书原件
    身份证
    专利证书原件
    网站提供 过户后您将获得
    专利代理委托书
    专利权转让协议
    办理文件副本请求书
    发明人变更声明
    专利证书
    手续合格通知书
    专利登记薄副本

    安全保障

    承诺信息

    我方拟转让所持标的项目,通过中国汽车知识产权交易平台公开披露项目信息和组织交易活动,依照公开、公平、公正和诚信的原则作如下承诺:

    1、本次项目交易是我方真实意思表示,项目标的权属清晰,除已披露的事项外,我方对该项目拥有完全的处置权且不存在法律法规禁止或限制交易的情形;
    2、本项目标的中所涉及的处置行为已履行了相应程序,经过有效的内部决策,并获得相应批准;交易标的涉及共有或交易标的上设置有他项权利,已获得相关权利 人同意的有效文件。
    3、我方所提交的信息发布申请及相关材料真实、完整、准确、合法、有效,不存在虚假记载、误导性陈述或重大遗漏;我方同意平台按上述材料内容发布披露信息, 并对披露内容和上述的真实性、完整性、准确性、合法性、有效性承担法律责任;
    4、我方在交易过程中自愿遵守有关法律法规和平台相关交易规则及规定,恪守信息发布公告约定,按照相关要求履行我方义务;
    5、我方已认真考虑本次项目交易行为可能导致的企业经营、行业、市场、政策以及其他不可预计的各项风险因素,愿意自行承担可能存在的一切交易风险;
    6、我方在平台所组织交易期间将不通过其他渠道对标的项目进行交易;
    7、我方将按照平台收费办法及相关交易文件的约定及时、足额支付相关费用,不因与受让方争议或合同解除、终止等原因拒绝、拖延、减少交纳或主张退还相关费用。