温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
deepCR
宇宙线
识别
方法
CSST
巡天
数据处理
中的
可用性
稳定性
定量
评价
研究
.天 文 研 究 与 技 术 第 卷 第 期 年 月:./.宇宙线识别方法在 巡天数据处理中的可用性及稳定性定量评价研究林 准 黄伟荣 王 锋 邓 辉 梅 盈(广州大学物理与材料科学学院天体物理中心 广东 广州)摘要:宇宙线识别方法是哈勃空间望远镜()剔除宇宙线的有效方法 但这一方法是否可以满足中国空间站望远镜()的要求 始终缺乏科学的定量分析 采用哈勃望远镜的真实观测数据 对 宇宙线识别方法进行了深入分析 对其稳定性和可用性进行了实测研究 结果表明 在天空背景区域识别宇宙线的灵敏度较高 但越靠近星像中心 识别宇宙线的灵敏度越低分析了宇宙线密度和测光精度的关系 发现当宇宙线密度达到 时 几乎 的星受到宇宙线的污染 当宇宙线密度达到 时 对于不同轮廓面积的星 存在 的异常测光结果 实验结果表明 宇宙线识别模型稳定性相对较好 一次建模后可以在较长时间内应用 但在高精度测光等应用场景仍面临着一系列问题 需要有针对性的解决方案关键词:宇宙线 定量评价中图分类号:文献标识码:文章编号:()宇宙线是来自宇宙的高能带电粒子 它能穿过地面或设备留下能量痕迹 宇宙线常常干扰正常的天文观测 尤其是在天文图像处理领域 为了提高数据的质量和可靠性 确保科学分析的可靠性和准确性 宇宙线必须正确地识别和剔除最传统的做法是对同一天空区域进行多次曝光 多张曝光图对齐并计算中值图以获得一幅无宇宙线的图像 将每张曝光图与中值图进行比较可以识别宇宙线 这类方法效果很好 然而它并不适用于单次曝光的图像近年来 人们提出了各种技术识别和剔除单次曝光天文图像中的宇宙射线 文提出基于卷积的方法 用点扩散函数减去 函数以构建空间滤波器并与原图像进行卷积 根据滤波图像的噪声特性设置阈值以识别宇宙线 文指出 程序需要进行多次迭代才能更好地识别多个像素点组成的宇宙线 因此较为耗时 同时该方法要求采样数据良好 半高全宽要大于等于两个像素 文根据宇宙线尖锐的边缘和无对称性两个特征 将原始图像子采样放大并与拉普拉斯算子进行卷积 恢复原始分辨率后得到拉普拉斯图像 另外使用中值滤波构造精细结构 通过设置拉普拉斯图像与噪声模型、精细结构的对比度识别宇宙线 该方法检测效果较好 但程序需要不断迭代直到没有新的宇宙线 对于大图程序运行时间较长 而且在面对不同的图像数据时 需要手动调整对比度 以获得最好的识别效果 文考虑到宇宙线的直方图分布不是高斯分布 提出基于图像直方图统计的方法该方法先将图像划分为若干个子图 通过分析多个子图的直方图分布 设置阈值将偏离分布的像素点识别为宇宙线 文指出 该方法适合处理光谱图像数据 而且运行速度快 但对于点扩散函数较窄的图像 宇宙线识别效果不如文和文基金项目:国家自然科学天文联合基金()国家自然科学基金国际合作项目()资助.收稿日期:修订日期:作者简介:林 准 男 硕士研究生 主要研究天文技术与方法.:.通信作者:王 锋 男 教授 主要研究天文技术与方法.:.天 文研究与技术 卷随着深度学习技术的发展 人们开始利用深度学习方法识别宇宙线 其中 由于其高精确度和高效率而受到极大关注 整个框架包括两个独立的深度神经网络 分别用于标记宇宙线和标记过后的图像恢复 已在哈勃空间望远镜高级巡天相机()/广域通道()(滤波器)的数据上展示了比拉普拉斯边缘检测算法更高的召回率以及更快的处理速度中国空间站望远镜是我国载人航天工程规划建设的重大科学项目 主要任务是进行大规模天文巡天 然而 在巡天观测中 宇宙线干扰是一个严峻的问题 中国空间站望远镜主巡天相机由 块探测器拼接组成 覆盖区域大约为 平方度 焦面感光面积约为 根据与中国空间站望远镜有相近轨道高度的哈勃空间望远镜的数据估计 每块探测器在 的曝光过程中 有超过 万个像元受到宇宙线的影响 宇宙线会破坏这些像元的读数 因此需要对这些像元的位置进行标定 以避免对科学数据的测量产生影响 在巡天模式中 由于每个探测器只对相应天区覆盖一次 无法使用多次曝光合并这种传统的去除方式 只能利用单次曝光图像实现宇宙线去除尽管 取得了较好的结果 在实际应用中它的真实效果仍缺少定量分析 这个方法是否可以应用于未来的中国空间站望远镜数据处理值得研究 本文基于哈勃空间望远镜的观测数据 针对 进行深入分析 对其实际应用的稳定性和可用性进行了系统的定量研究 宇宙线识别方法 宇宙线识别模型由两个独立的深度神经网络组成 分别是 和 对输入图像预测每一个像素被宇宙线影响的概率 而后用 倍阈值将概率图转换为二值图 代表非宇宙线 代表宇宙线 预测输入图像中标记为宇宙线的像素点在没有宇宙线干扰时的值 以此恢复图像在没有宇宙线干扰时的情况 这两个网络都基于 结构搭建 模型的训练数据包括受宇宙线影响的图像和与之对应的宇宙线二值标签图 选择多次曝光数据作为训练数据 通过比较每张曝光图与中值图的方法制作准确的宇宙线二值标记 我们直接使用文提供的基于 年的 /()数据训练好的模型进行后续测试后续测试的数据在第 节介绍 测试数据准备为了与文保持一致 我们使用 /()的观测数据 随机选取 组每组由视场相同并且经过校准的 次曝光的科学图像构成(见图)图 为每组数据的观测日期以及平均曝光时间 数据管线可以自动对多张观测图像进行天空投影对齐 随后进行中值合并 得到没有宇宙线的中值图 再将中值图映射至每张原始的观测图像 得到多张映射中值图 使用 倍均方根()和 倍均方根作为第 道和第 道阈值 比较映射中值图与原始观测图像的差异 从而标记宇宙线的位置 用映射中值图上的像素值替换原始观测图像中的宇宙线 最终得到干净图像 此外 我们还将哈勃望远镜观测数据(文件)中的数据质量数组作为坏像素的掩码 并为大于 的像素创建 的饱和掩码 以保证这些异常像素不参与后续的模型评价基于 数据管线 我们得到了每张原始观测图像剔除宇宙线后的干净图像 把这些干净图像作为基准图像 以基准图像上的测光结果作为基准的测光结果 开展后续的定量评价实验 定量评价 基于深度学习指标的定量评价由于宇宙线在全图的占比小 导致正负样本不均衡 因此精确率和召回率是最重要的衡量指标 期林 准等:宇宙线识别方法在 巡天数据处理中的可用性及稳定性定量评价研究精确率/()召回率/()其中 代表正确识别为宇宙线的宇宙线像素的数量 代表错误识别为宇宙线的非宇宙线像素的数量 代表错误识别为非宇宙线的宇宙线像素的数量图 实验数据描述 利用文的模型 我们首先对所有测试数据进行全图像区域的宇宙线识别评估 结果显示召回率达到 精确率为 这表明模型不仅可以较准确地分辨宇宙线 而且具有较高的识别灵敏度 然而 由于宇宙线大部分落在天光背景上 可能导致识别效果被高估 为了得到更可信的精确率和召回率 我们进一步对星的区域进行评估 使用 计算干净图像背景的均方根 并使用均方根的 倍、倍、倍等阈值来提取星的连通区 倍数越大 表示提取的连通区域越接近星的中心 我们用这些连通区作为掩模 得到位于星上不同区域的宇宙线的识别情况表 展示了模型对位于星上不同区域的宇宙线的识别性能 我们发现 与整个图像区域的宇宙线识别效果相比 对落在星上的宇宙线的识别灵敏度与准确率显著下降(越接近星像中心 召回率与精确率越低)说明 方法在星的中心区域很容易漏掉宇宙线表 模型表现随距星像中心的变化 /()/()基于测光的定量评价虽然精确率和召回率是评估模型效果的重要指标 但它们并不能反映模型在实际应用场景的效果 因此 我们基于测光结果进一步分析了 的宇宙线剔除效果图 展示了测光的过程 本文 提取源的标准为()单像素高于 倍背景噪声()连通区域像素数大于 ()只对点源进行分析 每个源的长轴与短轴之比为 ()为了避免图像边沿不可靠的测光结果 提取范围为距离 四条边大于 个像素的位置 另外 对同一组数据中每张图的星进行匹配 把坐标距离小于 的星判定为同一颗星 为了得到更准确的宇宙线剔除效果 同一组数据中的每颗相同的星均采用相同的测光中心坐标和测光半径我们定义原始图流量与干净图流量的差值大于 倍流量噪声的星为受宇宙线污染的星 图 为测试数据的测光结果分析()图中 黑线为原始图像的测光结果和干净图像中的测光结果的比值天 文研究与技术 卷()图中 蓝线为 对原始图像剔除宇宙线后的测光结果和干净图像的测光结果的比值(下文简称为“流量比值”)如果流量比值越接近 说明 的效果越接近基准结果 比值小于 说明 把星信号误判为宇宙线 比值大于 则说明 剔除宇宙线不干净图 测光流程图 图 测光结果图 经过统计发现 每组数据的异常星占所有星的比例在 与 之间 可见大部分星受到宇宙线的污染 在这些被宇宙线影响的异常星中 有 的星 剔除宇宙线后的测光结果与基准测光结果比值大于 或小于 有 的星 剔除宇宙线后的测光结果与基准测光结果比值在 与 之间 尽管整体的剔除效果较好 但仍有部分星被错误剔除或者没有剔除宇宙线 从而导致测光结果异常进一步 我们检查了流量比值明显小于、明显大于 的星的图像(见图、图)在每一行的图像中 第 个子图为原始图像 第 个子图为干净图像 第 个子图为第 个子图减去第 个子图的差 该差值表示真实宇宙线的位置 第 个子图是 剔除宇宙线后的图像 第 个子图为第 个子图与第 个子图的差(取绝对值)该差值表示 误识别的宇宙线或者漏识别的宇宙线 在流量比值明显小于 的例子中发现 可能错误地把轮廓较小的整颗星识别为宇宙线(参考图)这极大影响了测光精度 而当宇宙线落在星的中心区域时 往往没有成功识别出该宇宙线(参考图)在另一些情况下 当宇宙线落在星的边缘时 的识别效果良好 落在星上的宇宙线较少或较弱时 无论 识别宇宙线的效果如何 都不会对测光结果造成明显影响 期林 准等:宇宙线识别方法在 巡天数据处理中的可用性及稳定性定量评价研究图 流量比值明显小于 的典型情况 图 流量比值明显大于 的典型情况 以上的分析说明 落在星上的宇宙线 模型识别效果并不好 因此 宇宙线的密度是测光精度的重要影响因素 图 展示了宇宙线密度对测光精度的影响 其中横轴代表宇宙线全图占比 宇宙线占比 时对应的曝光时间约为 纵坐标分别代表被宇宙线污染的星的比例(星被宇宙线污染的判别标准为原始图像测光结果在干净图像测光结果的 倍流量误差的范围外)和测光结果异常的比例(异常的判别标准为 测光结果在干净图像测光结果的 倍流量误差的范围外)()图中 红线为线性拟合结果 皮尔逊相关系数 ()图中 黑线、红线和蓝线分别为 和 个像素大小的星的线性拟合结果 其皮尔逊相关系数 和 值分别为()()和()从()图可以看到 当宇宙线全图占比为 时 几乎 的星被宇宙线污染了 从()图可以看到 当星的轮廓面积为 个像素且宇宙线全图占比约 时 大约 的星测光结果异常 由于宇宙线的密度随着曝光时间的增加而增大因此 中国空间站望远镜巡天过程中不应该采用过长的曝光时间天 文研究与技术 卷图 不同宇宙线密度时的测光结果异常的比例 不同颜色的点代表不同大小的星 模型稳定性分析天文图像的质量和稳定性往往难以保证 因此一个好的深度学习模型应该具有高度的稳定性 先前缺乏对模型稳定性的研究 因此 本文通过基于深度学习评估指标和测光精度两个方面分析模型的稳定性图 展示了 年 月至 年 月期间 组观测数据基于星上的宇宙线统计的 分数和 分数 的值为()的值为()可以看到随着时间变化 分数和 分数没有明显的变化图 分数和 分数随观测日期的变化 图 中 横轴的日期跨度从 年 月到 年 月 纵坐标是每一组数据中所有星的流量比值的均方根(参考图 的做法)蓝点代表测光精度 红线是蓝点数据的均值 绿线代表均值 倍标准差 另外 为了得到更加准确的均方根 去除数据中最大和最小的 的数据再进行均方根的计算 结果表明 每组数据的均方根基本在误差范围内 即 剔除宇宙线的测光精度和探测器的工作年龄没有显著关系 期林 准等:宇宙线识别方法在 巡天数据处理中的可用性及稳定性定量评价研究图 不同观测时间数据的测光精度()图 ()总 结本文系统定量地分析了 方法对宇宙线识别的结果 年至 年期间哈勃空间望远镜观测数据的 分数、分