为了助力大模型研究,复旦大学自然语言处理实验室开源了中文图书数据集合cbook-150k,包含15万本中文图书的下载和抽取方法,涵盖人文、教育、科技、军事、政治等众多领域。
当前很多研究表明,高质量数据对于训练大规模语言模型具有至关重要的作用。图书中的内容在质量、专业水准、可靠性等方面远高于互联网数据。openai在训练gpt 3时,也使用了大量图书资源。但是目前还缺乏大规模的中文图书开放集合。此外,由于绝大多数电子书籍的保存方式为pdf格式,从其中抽取文本内容也需要分析工具支持。复旦大学自然语言处理实验室结合此前自主开发的相关pdf分析工具,开源了中文语料图书集合cbook-150k。
复旦大学自然语言处理实验室,自2019年起,自研了pdf处理工具docai,针对非扫描件pdf,具有能够处理复杂格式、高效、高准确率、可私有化部署等特点。docai在全cpu解决方案下,单核cpu处理100页文档仅需10秒。提取字符准确率100%,结构分析准确率95%。docai智能文档解析系统支持对doc、pdf等常见电子文档进行智能解析,对文档中的标题、段落、表格等半结构化数据进行结构化分析还原。该应用场景具有文件类型多,格式复杂,兼容性要求高等特点,特别是对于跨页表格,多栏排版等复杂场景的支持。是目前支持段落、表格融合识别的为数不多的智能文档解析工具之一。dodai不依赖第三方资源,支持离线环境下的私有化部署和使用,确保文档隐私与安全。
结合docai工具以及搜索引擎,复旦大学自然语言处理实验室从互联网中筛选了大量中文图书资源链接,并构造了内容抽取算法,助力广大学者nlp大模型研究,同时也在实践与操作中不断迭代更新,完善大型语料库的部署。
下载链接:
https://github.com/fudannlplab/cbook-150k
知名厂商齐助阵,医疗IC技术助力“家庭出诊”
技术 | 基于PLC技术的VIGAN卸船机控制系统故障诊断
鸿蒙官方开发板功能讲解
PLC定位控制项目配置过程
如何在Raspbian上设置没有显示器和键盘的Raspberry Pi
NLP大模型必备-FudanNLP开源中文图书集合CBook-150K
3D打印:打响全球制造业新一轮赛跑
瑞丰光电2021年度经营任务签约仪式召开
谷歌发布多模态Gemini大模型及新一代TPU系统Cloud TPU v5p
如何为不同的业务选择合适的区块链网络
苹果OLED显示屏订单落入韩企三星口袋:日本显示器公司明显慌了
数码彩扩机技术介绍
如何将指纹传感器与PIC微控制器连接
共模电感设计方案,零欧电阻、磁珠、电感有何区别
汽车线束生产线到底有哪些防错装置
电视扫描技术原理
电源ic芯片在选型替代过程当中,如何保证产品效率?
半导体芯片散热面临的挑战
基于Max+PlusⅡ与VHDL的数字电压表设计
iphone8什么时候上市?iphone8最新消息:iphone8即将上市,iPhone 8“亮屏”照:屏占比惊艳,售价不低啊!