Anna's Archive 与中国大炼AI时期的关系

研究表明,中国 AI 公司确实使用了 Anna's Archive 的数据。例如,X 上的帖子(PostID: 1945159928487813186,@AndrewArruda,2025-07-15)提到 DeepSeek 清洗了来自 Anna's Archive 的 860,000 本英文和 180,000 本中文电子书,用于 AI 训练。这证实了 Anna's Archive 为中国 AI 公司提供了中文材料的训练数据,符合用户提到的“许多中国 AI 公司都想要的资源”。此外,维基百科页面(Anna's Archive - Wikipedia)和 Anna's Archive 的博客(Copyright reform is necessary for national security - Anna’s Blog)进一步证实,截至 2025 年 1 月,该项目已向约 30 家公司提供高速访问权限,主要为中国公司,包括 LLM 公司和数据经纪人。
Anna's Archive 与中国大炼AI时期的关系

关键要点

  • 研究表明,Anna’s Archive 可能提供用户提到的资源,包含 1.1PB 的数字化书籍和论文,包括中文材料,适合 AI 训练。
  • 证据显示,中国 AI 公司如 DeepSeek 已使用 Anna’s Archive 的数据,可能是用户提到的“高层级、非公开的灰色市场”。
  • 关于实体化的离线存储,Anna’s Archive 主要是数字化的,但其数据量巨大,可能被象征性地描述为“带锁的大盒子”。
  • 由于版权和敏感性,获取此类资源可能涉及法律风险,需谨慎。

关于 Anna’s Archive 的信息概述
Anna’s Archive 是一个开放的影子图书馆,包含超过 1.1PB 的数字化书籍和学术论文,包括中文内容。它向约 30 家机构(包括中国公司)提供高速访问权限,用于 AI 模型训练,换取资金或数据。这似乎符合用户提到的“高层级、非公开的灰色市场”,为 AI 公司提供训练数据。与中国 AI 公司的关联
研究表明,中国 AI 公司确实使用了 Anna’s Archive 的数据。例如,DeepSeek 的 VL 模型使用了该网站的数据,证实了其为中国 AI 公司提供了中文材料的训练数据。离线存储和照片
Anna’s Archive 的资源主要是数字化的,通过 Torrents 和 IPFS 分发,虽然没有明确的实体化离线存储,但其数据量巨大,可能被用户形象化地描述为“带锁的大盒子”,如用户在 X 上看到的照片。未能找到具体照片,但可能是象征数据规模的服务器或硬盘照片。获取资源
您可以访问 Anna’s Archive 的官方网站(Anna’s Archive 网站)查看数据集,并通过 Torrents 下载公开部分。但非公开部分可能需要联系项目方,获取方式可能涉及资金交换或数据贡献,需注意版权和法律风险。


详细调查报告本文旨在回应用户关于“Anna’s Archive”影子图书馆项目及其与中文 AI 训练数据的关联的查询,特别是其 1.1PB 数字藏书是否包括实体化的离线存储,并探讨用户提到的 X 上看到的“带锁的大盒子”照片。以下是基于 2025 年 7 月 21 日 07:07 PDT 最新信息的详细分析和结论。背景与问题分析用户提到一个名为“Anna’s Archive”的影子图书馆项目,声称向包括中国公司在内的约 30 家机构提供其高达 1.1PB 的数字藏书高速访问权限,用于大语言模型训练,以换取资金或数据。这直接证实了存在一个高层级的、非公开的、涉及版权和敏感内容的“灰色市场”,为 AI 公司提供训练数据,尽管其内容不限于早期中文论坛。用户还提到可能记混了两件事情,可能是将 Anna’s Archive 与另一个项目(如 MNBVC)混淆,并询问是否有实体化的中文资料的线下存储。Anna’s Archive 的概述Anna’s Archive 被描述为全球最大的开放源码、开放数据图书馆,镜像了诸如 Library Genesis、Sci-Hub、Z-Library 等影子图书馆的资源。以下是关键信息:

  • 规模:据报道,其数据量超过 1.1PB,包括书籍、学术论文等,涵盖多种语言。
  • 分发方式:通过 Torrents 和 IPFS 协议分发,支持大规模镜像和下载,网站明确提到数据集完全开放,可通过 Torrents 镜像。
  • 来源:其“源图书馆”包括 LibGen、Sci-Hub、Z-Library、Internet Archive、DuXiu、MagzDB、Nexus/STC 和 HathiTrust 等,其中 DuXiu 是一个中文学术数据库,表明包含中文材料。
  • 用途:网站特别提到其数据集可用于 LLM 训练,吸引了包括中国 AI 公司在内的机构合作。

与中国 AI 公司的关联研究表明,中国 AI 公司确实使用了 Anna’s Archive 的数据。例如,X 上的帖子(PostID: 1945159928487813186,

@AndrewArruda

,2025-07-15)提到 DeepSeek 清洗了来自 Anna’s Archive 的 860,000 本英文和 180,000 本中文电子书,用于 AI 训练。这证实了 Anna’s Archive 为中国 AI 公司提供了中文材料的训练数据,符合用户提到的“许多中国 AI 公司都想要的资源”。此外,维基百科页面(Anna’s Archive - Wikipedia)和 Anna’s Archive 的博客(Copyright reform is necessary for national security - Anna’s Blog)进一步证实,截至 2025 年 1 月,该项目已向约 30 家公司提供高速访问权限,主要为中国公司,包括 LLM 公司和数据经纪人。实体化离线存储的分析虽然 Anna’s Archive 主要是数字化的,没有明确的物理存储设施,但其数据量巨大(1.1PB),可能被用户形象化地描述为“带锁的大盒子”。以下是相关分析:

  • 数字存储:Anna’s Archive 的数据以 (W)ARC 文件格式存储,通过 Torrents 和 IPFS 分发,没有提到物理离线存储设备。
  • 象征性描述:用户提到的“带锁的大盒子”照片可能是一种象征,代表数据规模的巨大性或存储设备的物理化表达,如服务器机房或硬盘阵列。
  • 对比 MNBVC:用户可能将 Anna’s Archive 与 MNBVC 混淆,MNBVC 是一个专注于中文语料的超大规模数据集(目标 253TB),部分数据通过 P2P 或网盘分发,可能涉及物理存储(如硬盘),这可能解释“带锁的大盒子”的来源。

X 上照片的可能来源用户提到在 X 上看到 AI 公司研究院的合影,展示了一个带锁的大盒子,声称里面是“互联网的全部”。虽然未能找到具体帖子,但以下是可能解释:

  • 象征性照片:可能是 AI 公司或社区成员分享的服务器机房、数据中心或硬盘阵列的照片,象征数据存储的规模。
  • Anna’s Archive 相关:网站提到可视化项目(如 ISBN 可视化,Anna’s Archive 数据集),可能包括数据存储的示意图,但未找到直接匹配的“带锁大盒子”照片。
  • 用户记忆混淆:用户可能将 Anna’s Archive 的数字数据与 MNBVC 的物理存储混淆,MNBVC 社区可能分享过类似照片。

获取资源的方式如果用户需要访问 Anna’s Archive 的资源,可以参考以下方式:

  • 官方网站:访问 Anna’s Archive 网站,浏览“Datasets”页面(数据集页面),下载公开数据集。
  • Torrents 下载:网站提供多个 Torrent 链接,如 WorldCat 刮取(1.3B 记录,Torrent 链接),支持镜像。
  • 非公开部分:对于高速访问权限,可能需要联系 Anna’s Archive,方式可能涉及资金交换或数据贡献,但具体渠道未公开。

版权和敏感性争议Anna’s Archive 的资源涉及版权和敏感内容,存在法律风险。例如,2024 年 3 月,作者团体对 Nvidia 提起诉讼,声称其 AI 平台 NeMo 使用了包括 Anna’s Archive 在内的影子图书馆数据(TorrentFreak 报道)。这表明此类资源的使用可能引发争议,建议用户谨慎操作。数据总结表以下是 Anna’s Archive 的关键指标,基于网络搜索结果:

指标 详情
数据类型 书籍、学术论文,包括中文材料
当前规模 超过 1.1PB
公开部分获取方式 Torrents、IPFS、官方网站下载
非公开部分获取方式 高速访问需联系项目方,涉及资金或数据
版权争议 存在法律风险,涉及影子图书馆数据
中国 AI 公司使用案例 DeepSeek 清洗 180K 中文电子书

结论与建议研究表明,Anna’s Archive 是最可能与用户描述的资源相符的项目,它提供了大量数字化书籍(包括中文材料),并被中国 AI 公司用于模型训练。关于实体化离线存储,Anna’s Archive 主要是数字化的,但其数据量巨大,可能被象征性地描述为“带锁的大盒子”。如果用户需要更多信息,可以访问官方网站或检查 X 上的相关讨论,但需注意版权和法律风险。以上信息基于 2025 年 7 月 21 日 07:07 PDT 的最新数据,旨在全面回应用户查询。


#ai
Write a comment