楼上我提到的半个月的估算是完全错误的。
Posts 方面,当前看来受到影响的会是
post ID 468151 及之后在源站发布的帖子。考察 468150 的发布时间可以得出,源站的数据库丢失只影响了 2023-09-30T16:54Z 之后的帖子。在源站数据发生丢失/回滚前,镜像所收录到的源站的 post id 就只到 468198 为止;目前源站回滚后重新发布的帖子的 post id 也是暂且到了
468198,这实在是太巧合了,有些奇怪。但如果我没弄错,这也意味着未来来自源站的帖子都将会是是 468199 以及之后的了,它们就不存在再错误覆盖任何镜像先前收录的内容的可能性,所以即使重新开启同步程序,也不会错误覆盖任何 post 了。当然之前的脏数据还是得设法清理/恢复。
Threads 方面,
55512 的发布时间小于 2023-09-30T16:54Z 这个时间点,因此只有 55513 及之后的 thread 会受到影响。源站回滚前的 ID 到了 55516,而目前只到 55514,所以如果现在就开启同步程序,55515 和 55516 将会被覆盖;所以现在还不能重启同步程序。
对于因为源站数据库回滚而被丢失的 post,准备采取的方案是:(如果还没被覆盖,或者能从日志中恢复)就在镜像中将它们的 ID 加上 285212672 来保存。这个方案在两年前源站数据库回滚时就采用过,例如
这个主题就是源站丢失掉的 thread 50174。但这次我不确定有多少数据能够找到。
接下来我可能分批会手动处理数据库中的脏数据,途中可能发生更奇怪的情况,请见谅。