近日,国际著名天体物理期刊AJ(The Astrophysical Journal)录用了本课题组与国家天文台及鹏城实验室合作的学术论文《Observation Strategy Optimization for Distributed Telescope Arrays With Deep Reinforcement Learning》,该工作由智能光学成像实验室贾鹏、贾奇伟、江天成和中国科学院国家天文台刘继峰研究员完成。本工作研发了一种基于强化学习的望远镜阵列控制系统,能够有效的解决时域天文学中针对快速移动目标的监测和搜寻任务。
因为具有大视场,低成本、易维护等优点,大视场小口径望远镜(Wide Field Small Aperture Telescope, WFSAT)被广泛的应用于时域天文学中。望远镜阵列指的是在相同地点或者不同地点的多台望远镜对同一观测任务进行联合观测,能够以更高的Cadence获得天文观测数据。随着望远镜阵列中望远镜的数目增多和科学任务的复杂度提升,对望远镜阵列的调度方案要求越来越高。
相较于传统算法只考虑静态因素、耗费大量的计算资源等劣势,智能光学成像实验室团队意识到深度强化学习处理连续动态图像的能力将有助于解决望远镜阵列的策略调度问题。深度强化学习是指将深度学习和强化学习结合起来,通过智能体与未知环境交互,学习最优行动策略的机器学习方法。其主要思想是基于强化学习的奖励机制,通过深度神经网络对状态和行动的价值进行估计和优化,以实现自主决策和行动。深度强化学习已经在许多领域取得了重大进展,例如游戏、机器人控制、自然语言处理等。然而,真实环境往往难以控制和复制,而且存在风险和成本的考虑。因此,研究人员通常使用模拟环境来训练深度强化学习模型,以便在实际应用中进行测试和验证,并且可以随时重复训练过程,以便进行更深入的调试和分析。
为实现望远镜阵列观测策略优化,首先需要构建一个高保真数字模拟环境对观测流程进行仿真(数字模拟环境当前正在由智能光学成像实验室数字孪生小组进行发展和落实,具体看参考本网站其他报道)。具体而言,本研究构建了望远镜阵列模型、天体模型和天球模型以及各模型之间的连接,最终搭建了望远镜阵列数字模拟环境(下图所示为模拟环境的可视化界面)。
本研究以空间碎片监测和搜寻为典型案例,验证深度强化学习算法框架的性能(本文采用空间碎片为目标,因为利用望远镜阵列观测这类目标更加具有挑战。本论文提出的框架可以直接用于自然天体监测任务。)。空间碎片监测和搜寻要求望远镜阵列在一定的时间范围内搜寻环境中未知的空间碎片并对已知空间碎片进行周期性监测(以维护空间碎片轨道编目)。下图是根据任务的要求和强化学习的原理搭建的基于强化学习的空间目标望远镜网络示意图。
经过训练,深度强化学习适应了空间目标监测和搜寻任务中环境的变化,并能够在不同的环境中表现优异的性能。下图是训练后的强化学习算法在不同环境中的性能表现。“Change Time”指的是相对于训练环境改变了模拟时间(因为观测过程中考虑月相,因此算法需要保证时间无关的泛化能力),“Change Debris”指的是相对于训练环境改变了空间目标轨道,“Change Observatories”指的是相对于训练环境改变了观测站位置,“Change All”指的是相对于训练环境改变了以上三个因素。可以看到传统巡天算法在每组实验中只能找到10个左右目标并对8个左右的目标进行监测。而强化学习算法能找到大约120个目标并对大约100个目标进行监测。
本研究研发的结合数字模拟环境和深度强化学习的望远镜阵列观测策略优化框架具有优异的性能和强大的泛化能力,通过对参数修改或对实测数据接入就能够应用于各类地、空望远镜阵列的观测策略优化。接下来,智能光学成像实验室将对其他科学课题和相关的望远镜观测阵列项目开展进一步的研究工作。
本研究获得国家自然科学基金(NSFC资助号:12173027、12173062),中国载人航天工程科学研究基金(NO. CMS-CSST-2021-A01),民用航天基金(D050105)等项目的资助。智能光学成像实验室倡导可复现的科学研究,所有研究代码和数据经China-VO平台发布https://nadc.china-vo.org/res/r101240/ ,DOI:10.12149/101239。相关云服务资源由智能光学成像实验室部署,可通过联系负责人贾鹏(robinmartin20@gmail.com)获取外网直连资源使用权限。解读视频链接:https://www.bilibili.com/video/BV1ko4y147dt/。
论文内容解读由太原理工大学贾奇伟同学完成,贾奇伟同学2021年本科毕业于太原理工大学,同年加入太原理工大学智能光学成像实验室开展机器学习及人工智能方面的研究,目前主导小组强化学习和望远镜智能控制的相关研究。 智能光学成像实验室由贾鹏博士于2018年建立,面向国家基础科学装置和战略需求,开展光电系统数字孪生及智能信号处理研究,研究成果服务我国空间站巡天望远镜、欧洲极大光学望远镜、大光学红外望远镜、平方公里阵列、爱因斯坦探针、司天计划等国内外大科学装置。近年来,在国家自然科学基金、载人航天工程和平方公里阵专项项目支持下,融合天文仪器数字孪生和智能数据处理技术开展天文目标信息自动提取和未知天文目标发现研究,助力我国科学实现从0到1的突破。