大家好,我是 2049bbs 备份的作者 分享原创

既然論壇中有用戶已經知道了,這件事没有什么值得隐瞒的,我是 2049bbs.github.io 的备份者。

首先感谢站长 @thphd 能够利用好我的备份数据,恢复论坛。

没事儿,论坛源码在这里,……把站长抓了,总有一个站友站出来,……2050bbs再续前缘。

如果不是有 2049bbs 的近乎完整的公開備份數據,加上站長的無私努力,很難想象能否在 2049bbs 关闭後,在這裡再次與大家相見。

2018年9月牆外樓关闭,10月30日,品葱爆破。一周多后的11月8日,旧膜乎 (mohu.club) 关闭了。2019年1月香港人站長的奇闻录也迫於壓力关站(不知多少人還記得這幾個網站)。很可惜,大部分數據沒能留存下來,煙消雲散了,只能从网页快照中恢复一些断垣残壁,心痛。所以對於任何一個抵抗者網站來說,在網站還正常運行的時候,就嘗試去備份它!能夠用及时的数据恢复完整内容,非常重要。

我非常希望站長 @thphd@NodeBE4@沉默的广场@Resistance ,我 ,還有任何有能力/有技術的同僚,可以一起合作完成一項有意义的开源项目。


To @九頭鳥@NodeBE4,我自己,和所有不是共匪國安網警的用戶

無論是誰,有著共同目標的大家請間放下一切的猜疑、指責、内斗,坦诚相见。 我们共同的敌人是共匪的專制暴政,而抵抗者们原子化、散沙化是共匪乐意看见的。

21
2020年9月20日 513 次浏览
16个评论
愛牛奶盒的人 你們可不能混瑤哦~

謝謝樓主和站長,還有各位網友們😆

没事儿,论坛源码在这里,……把站长抓了,总有一个站友站出来,……2050bbs再续前缘。

傻瓜小二,没事咒自己干嘛,一语成谶。

感谢诸位的无私努力。

请务必保护好自身安全。自由,真tmd的可贵。

爱狗却养猫 寄蜉蝣于天地,渺沧海之一粟。

我想用我的每一个小号(虽然没几个),给你点赞一遍

但还是算了——小号的分量,配不上你的努力和贡献

Thank you Gracias Merci Danke schön

ありがとうございました شكرا 非常感谢

無論是誰,有著共同目標的大家請間放下一切的猜疑、指責、内斗,坦诚相见。

网站备份,最近以观点为例做了不少。我主要瞄准我认为价值比较高的内容网站,而非论坛。

已经有的

  • nodebe4的静态网站模板已经比较完善, 这个模板可以追溯到小二,很多组件来自端点星。后来陆续添加了很多东西,尤其是搜索、翻页、同类文章列表、针对触摸屏的FAB按钮(上下左右)等新功能可以让浏览变得非常高效。我建议这部分不要重复造轮子。直接把模板抄过去。
  • nodebe4的内容自动添加采用了duty-machine的news抓取模板,在此基础上进行了改进和完善,能生成yaml表头。如果是做一个靠RSS订阅来自动填充内容的网站,这部分也比较完善了,后来者根据自己的需求修改subs.json中的订阅列表就行。还包括了其它组建,比如clean.js用于清洗掉奇怪字符。
  • github action是一个很好的云计算资源,后台定期抓取都是 在这里实现的。而且用github的服务器可以确保运行爬虫的程序不会被目标网站封IP,封掉github的IP代价太高了。当然希望开发者们不要滥用这个免费资源。

需要完善的

  • 技术层面:网站抓取工具,推荐还是用nodejs开发一个比较完善的网页内容抓取。这方面我已经在BE4新闻站实现了一些,可以抓取相当多网站的内容,并且转换成markdown格式。duty-machine也实现了好几个网站的内容抓取。如果大家能把这些抓取程序整合起来,做成一个npm包,将来做内容网站抓取和备份就方便很多。网站内容抓取是很繁琐的工作,需要针对每个网站写不同的代码。
  • 内容层面:需要确定哪些网站有备份或抓取的价值。这方面,你我的看法可能不同,你喜欢备份论坛,我对论坛几乎没有兴趣,我更喜欢建类似资料馆类的东西。这可能就要由不同的人,组成不同的行动小组,不懂技术的可以帮忙搜索哪些网站有备份或抢救价值,确定目标。

感谢楼主的伟大工作!

对于如何整理旧pin站,pin站以及2049bbs旧内容的问题,我觉得楼主以及其他的同志应该想想,如何筛选萃取最有价值,最有说服力的文字,然后重新排序,命名,放到github上,并且镜像之。

我认为新pin站在最开始的三四个月仍然是有有价值内容输出的,不能完全否定

其实旧pin站里头涉及红三代,红四代的内容别的地方还真找不到,特别是一些疑似知道内情的人对内部系统的吐槽之类的。然后再参考大舌头录音的文字版本(也在旧pin站第一个有记录,然后youtube也有)

这两个东西在我印象里是最深的。

其次就是新pin站的早期的扒皮贴。

Resistance 编程随想读者|会点IT技术|爱好信息安全|关注隐私保护

GitHub 上面应该有很多现成的 Web 抓取工具,自己写个爬虫也很简单。

要是担心 Web Archive 会删除快照,可以自建

( 由 作者 2020年9月21日 编辑 )
libgen 天堂应该是图书馆的模样。一个阅读诗歌的人要比不读诗歌的人更难被战胜。创造是一种拯救。创造拯救了创造者本身。

@NodeBE4 #15455460

能不能恢复端点星的被删微信公众号文章存档项目?另外,能不能备份特定微信公众号的内容?

thphd 2047站长

请给楼主点赞

@libgen #15591481 这个大概是跟2049bbs一起关了。上次我看的时候还是运行中。可能要楼主这种技术高手才能搞定了,我这种文科生把别人的代码和方案改改拼凑一下还行,原创太为难我了。

不过我很好奇,你能否解释一下为什么你觉得微信公众号的文章值得备份呢?

@NodeBE4 #15807679

感谢,效率太高啦!一是目前创作者还是在微信公众号发文居多,其中有不少有价值的,从中国数字时代的备份可见一斑;二是希望能通过RSS订阅来实现微信公众号文章的阅读。

@libgen #15960675 但是我觉得这个作品85%都是在帮中共搞大外宣。公众号文章在我看来还不如China_irl

@NodeBE4 #16294324 统计内容违规被删除的文章可以一窥审查的动向。公众号算是沙中拣金,如果能实现抓取特定公众号是最好的。

@libgen #16401752

统计内容违规被删除的文章可以一窥审查的动向。

no longer be true. 公衆號的生態圈早已被塑造成中共希望的樣子了,你這種理念在早期剛開始審查的那兩年可以有效。人都是會適應環境的,現在公衆號就是大內宣,有極少數衝塔的,或者打擦邊球的,但是都很垃圾。審查者就像牧羊犬一樣,即便是羊羣在朝着它希望的方向走的時候,它也要去對着邊上的幾隻羊叫兩聲。

@NodeBE4 #16486897 看到因违规删除的 公共生活的意义|问答摘录(上) 就很好,我觉得文章不是说冲塔,仅仅是自由派知识分子之间的对话就很有价值,而这些不少还是会发在公众号上。公众号上有不少文化媒体,比如梁文道的“看理想”也不错。

btw, duty-machine 未适配 https://wechatscope.jmsc.hku.hk

欲参与讨论,请 登录注册

当我回顾所有的烦恼时,想起一位老人的故事,他临终时说,一生中烦恼太多,但大部分担忧的事却从未发生过。 ——温斯顿·丘吉尔(英国)