大约两周前,我的全自主强化学习驱动的飞行系统正常工作,但在某个时刻,它失效了。我修复了大约4个非常糟糕的bug,然后它才重新开始工作。真的很可怕。我真的打算回退。 硬件和神经网络实际上是非常困难的。
疯狂的是,它实际上仍然有效,我是说这个政策。就像,如果我眯起眼睛,我可以看到那些会导致失败的堕落行为。根本原因是一个可怕、可怕的错误(观察中左右传感器互换了!)
我曾经想过:也许我应该从遥控汽车开始,而不是遥控多旋翼飞行器——但我很高兴我选择了多旋翼飞行器。遥控汽车会太宽容,我的基础设施也不需要像今天这样好。
我需要坐下来仔细考虑我的端到端测试。理想的情况是一个端到端测试,在这个测试中,我有物理模拟器和训练器运行,并且多个实际的物理多旋翼无人机在一个黑暗的房间里被自动发射和测试。
我面临的问题主要是我的硬件基础设施变化得太快。每周我都有新的多旋翼框架、新的控制软件、新的双向通信链接固件、新的传感器..
痛苦
实际上,这就是QA的计划。早一点构建总比晚好。
@BigwetRealism 在强化学习中,我感到惊讶;它会学习策略以在隐藏状态下收集关于世界的信息,然后再利用这些信息。真的很疯狂。
@BigwetRealism 人们不做 RL 的原因是因为他们很糟糕。他们不想花 4 个月的时间从头开始用 cuda 编写模拟。
@BigwetRealism 我真的时间有限。我只有这么一点时间。
@BigwetRealism 我想尝试很多科学的东西。我只需要建立基础设施,卖掉一些东西,然后雇人来帮助我。
@BigwetRealism 这是一个数据点给你 我最大的问题是建模物理 比起学习行为的新方法,更能帮助我的是学习环境的新方法
179