从 7 月开始,我一个人用了一个月时间,采集了超过 200 TB 大模型训练语料,花了 20 万人民币的流量费和云存储费用。就像最近发布的 Mate60 Pro 一样,真可谓是两岸猿声啼不住,轻舟已过万重山。

200 TB 语料里都有什么

  • Z-library 图书馆电子书 2243 万册,共计 31 TB
  • Libgen 图书馆电子书 378 万册,共计 33 TB
  • Scimag 学术论文和期刊 8760 万册,共计 77 TB
  • 各类中文语料,共 4 TB,包括:
    • 小学、初中、高中全套课本,35 GB
    • 大学教材和专业书 1 万余册,142 GB
    • 《人民日报》《参考消息》《三联生活周刊》《环球科学》《读者》《中国国家地理》等数十种经典报刊杂志历年合集,共 1 TB
    • 百度百科 1200 万词条,20 GB
    • 古籍、各地县志 1.6 TB
    • 各类推荐书单、英汉双语世界名著、中国历代名著译本等图书 2 万余册,约 300 GB
    • 各类词典 100 GB
    • 各类中文小说约 100 GB
  • 各类数据集:
    • RedPajama 数据集,是 LLaMA 数据集的开源复刻版,2.8 TB
    • MNBVC 数据集,1 TB
    • CommonCrawl 2023 5-6 月版本的 WET 纯文字版数据,压缩后 8.6 TB
    • 全世界几乎所有域名的 Whois 数据历史(30 亿条),2.5 TB
    • TheStack 数据集,GitHub 知名开源项目的源代码,3 TB
    • The-Eye 数据集,是很多 AI 训练数据集的合集,15 TB
    • AmazonReviews 数据集,55 GB

为什么我收集了这么多书?这些书中很多还是图片组成的 PDF,需要 OCR 才能当文本模型的训练语料使用。我有两点考虑:

  1. 语料的质量比数量重要,百度贴吧上的贴子数量可能比书的数量多,但是贴吧贴子只能把大模型训练成一个段子手,没法让它干正事;要掌握知识,还是得从书籍和文献中系统地学习。
  2. 未来多模态大模型会成为主流,视觉中包含了人类世界的很多重要信息,现在的文本大模型只用文本做训练其实是丢失了很多信息,未来的多模态大模型可以从 PDF 书籍中直接学习包含图片和文本的多模态知识。

Whois 域名注册历史数据集

今天我用其中一个比较有意思的数据集,利用 GPT-4 帮我写代码,花了 3 个小时做了一个查询网站:全世界域名 30 亿条 Whois 历史查询:whois.os.ai

比如搜索 microsoft,可以看到 microsoft.* 的域名其实有非常多,需要加载一会儿才能全部加载完。也可以搜索你自己的域名,历史上大部分存在过的域名这个数据库里都有,而且大部分新注册的域名第二天就能在这个系统里查询到。

这个数据集起源于 2013~2014 年我在 MSRA 高级软件工程课程的课程作业。当时我做了一个网站 soip.net(在 whois.os.ai 上还可以查到当年域名注册的历史遗迹),从 Verisign 拿到了 .com 和 .net 的 DNS Zone File(目前这些 gTLD 的 Zone File 可以通过 ICANN 拿到),然后就慢慢把这几千万个域名(目前 .com 域名数量已经过亿)的 Whois 数据都爬下来,然后把每个域名解析出的 IP 地址也爬下来。

这样就形成了域名、IP、Whois 域名注册信息的关联数据,可以根据 IP 反查某个主机上挂了哪些域名,也可以根据注册信息反查某个人注册了哪些域名。当时域名注册信息保护还不流行,域名注册者的实名地址、邮箱和电话号码都可以通过 Whois 公开查到。其实当时已经有公司在提供此类服务了,因此我做这个网站也只是为了课程作业,并没有持续运营下去。

但是我觉得 Whois 域名注册信息的历史应该有很高价值,它就像 Internet Archive WayBackMachine 一样记录了互联网历史的一个侧面。因此就一直维护了下去,后来还添加了更多 gTLD 和 ccTLD 的数据源。当然我凭兴趣搞的项目做不到 100% 覆盖,不像 WhoisXMLAPI 这样专业提供 Whois 数据历史的公司那么厉害。

10 年过去,Whois 数据集中已经有超过 7 亿个域名,接近 30 亿条 Whois 历史记录,其中目前活跃的只有 2 亿多个域名,4 亿多个域名已经消失在历史的尘埃中。其中大多数域名都是 “米农” 买来投资或者收藏的,并没有真正用来建站。有些不太懂技术的认为,注册了域名只要不告诉别人,就没有人知道,其实不是这样的。对于大多数顶级域,域名注册信息和 DNS 信息每天的增量都是公开的,只要有合作关系都能拿到。有了域名数据集,就可以爬到很多搜索引擎没有收录的网站。

要是自己从头写这个查询网站,起码要花 2 天时间。用 GPT-4,只花了 3 个小时,而且前端比我做得还更漂亮。整个网站的源代码 基本都是 GPT-4 写的,包括前端、Flask 后端和 CSV 数据导入 MongoDB 的脚本(当然,导入数据花了一两天)。整个前端只有一个文件,整个后端也只有一个文件,一共 500 多行代码。写出来发现什么问题,再让 GPT-4 去修改,我就是个提需求的产品经理,一行代码都没有手写。

采数据与买数据

我也接触过一些卖数据的公司,清洗过的数据其实是挺贵的,远高于自己采集数据的成本。但是有些数据自己爬又很难爬到,比如天涯论坛今天已经不存在了,微信公众号也难以遍历所有文章,还有一些非公开的行业数据。

但是像知乎这种网站,就没有必要买数据了,知乎现在有上亿个问题、上十亿个回答,如果按照数据公司的定价去买数据,这不知道要多少钱。因此,自己爬取数据的能力是非常重要的。

数据清洗也非常关键,我曾经见过有的大语言模型,回答里面还有 “展开全部” “上一页” “下一页” 这些东西,这说明数据一定没有好好清洗过。

我只是利用业余时间做了一些初步的数据采集和清洗,以后有新的进展会跟大家分享。

Comments