需求:
思考:
出于管理简单目的,选用SQLite
2017年SQLite
说“十几KB的小文件存储在SQLite
中,读写速度可比文件系统快35%,空间节省20%”,所以封面图和内容主体都存在数据库中
(应该是不用像inode
那样存大量创建/修改/访问时间、权限记录等信息吧)
绝大部分是中文内容,因此采用UTF-16
存储(怕小说有emoji
之类的,所以不用GBK
),应该可比UTF-8
节省1/3
左右
同一本书的不同章节之间,应该会有更多的相关性,压缩存储应该能省下可观的空间。
简单测试下,一本一万多章的小说,52.5 MB
,用 7z, preset=9e (dict=64M)
压缩后,15.4 MB
,压缩率 29.4 %
。
但若以64 MB
字典固实压缩整本小说,会有如下不便:
64 MB
字典压缩时,最大会占用800+ MB
内存因此考虑分块压缩。简单测试下,不同块大小压缩与整体压缩率关系图(以第四点那本小说为基准):
在块大小为6 MB
时:
3000
字,这个块大小大约对应1000
章,可能方便后面管理6 MB
内存,顺便也可缓存该块的1000
章100+ MB
内存不足1000
章的小说,将以原文形式存在数据库中
暂时想到这些
改下标题,目的更明确些
为何要爬小说,这玩意我数据库好多g.感觉小说真鸡儿多.感觉累赘就删了
放心封杀不了的,霉国那么注重版权,网上照样不是盗版满天飞?只是获取的门槛提高了而已
而且中国还有几个主打免费的呢就是广告多点
小尾巴我就菜鸡一枚 https://18sui.net炮兵学院
@鲁滨逊漂流记,逛逼乎看到的,似乎要严打盗版了?想着屯一些,万一以后用得上呢
