美国公共领域英文图书数据集,由Sebastian Majstorovic编制,囊括逾65万册图书,总计约610亿字。该数据集源自互联网档案馆(IA)的数字化成果,作为开放图书馆(OL)项目的一部分,仅选取与OL记录相匹配的文本。数据集总大小约400GB,压缩后的Parquet格式约220GB,每个文件最多包含2000本图书。元数据涵盖书名、作者、出版年份及IA与OL的标识符,支持进一步信息拓展。图书以英语为主,亦含多语种,未来计划扩展至其他语言。由于OCR处理的文本质量参差不齐,后续版本拟引入质量评分及LLMs校正文本。
详情请参见五号雷达:https://www.5radar.com/
数据集地址: https://huggingface.co/datasets/storytracer/US-PD-Books
领取专属 10元无门槛券
私享最新 技术干货