信息和文献 WARC文件格式 (GB/T 33994-2017) 国家标准《信息和文献 WARC文件格式》由TC4(全国信息与文献标准化技术委员会)归口上报及执行,主管部门为国家标准化管理委员会。
起草单位:国家图书馆、中国科学院文献情报中心、中国科技信息研究所、中国国防科技信息中心、万方数据有限公司。
起草人:毛雅君 、李春明 、吴振新 、真溱 、曲云鹏 、张晓丹 、张兰 、杨贺 、敦文杰 、张彪 。
此标准规定了WARC文件格式:
--存储来自于主流互联网应用层协议(如HTTP,DNS和FTP)的有效载荷内容和控制信息;
--存储与其他已存储数据(如主题分类、语言、编码)相关的任意元数据;
--支持数据压缩,且保证数据记录的完整性;
--存储来自收割协议的全部控制信息(如请求标头信息),而不仅仅是响应信息;
--存储与其他已存储数据相关的数据转换结果;
--存储与其他已存储数据相关的重复监测活动(当相同或者大体相似的资源出现时,可以减少存储消耗);
--在不中断当前功能的情况下进行扩展;
--支持对超长记录在所需处进行截断或分段操作。