Anna's Archive 与中国大炼AI时期的关系

By Y July 21, 2025

研究表明，中国 AI 公司确实使用了 Anna's Archive 的数据。例如，X 上的帖子（PostID: 1945159928487813186，@AndrewArruda，2025-07-15）提到 DeepSeek 清洗了来自 Anna's Archive 的 860,000 本英文和 180,000 本中文电子书，用于 AI 训练。这证实了 Anna's Archive 为中国 AI 公司提供了中文材料的训练数据，符合用户提到的“许多中国 AI 公司都想要的资源”。此外，维基百科页面（Anna's Archive - Wikipedia）和 Anna's Archive 的博客（Copyright reform is necessary for national security - Anna’s Blog）进一步证实，截至 2025 年 1 月，该项目已向约 30 家公司提供高速访问权限，主要为中国公司，包括 LLM 公司和数据经纪人。

关键要点

研究表明，Anna’s Archive 可能提供用户提到的资源，包含 1.1PB 的数字化书籍和论文，包括中文材料，适合 AI 训练。
证据显示，中国 AI 公司如 DeepSeek 已使用 Anna’s Archive 的数据，可能是用户提到的“高层级、非公开的灰色市场”。
关于实体化的离线存储，Anna’s Archive 主要是数字化的，但其数据量巨大，可能被象征性地描述为“带锁的大盒子”。
由于版权和敏感性，获取此类资源可能涉及法律风险，需谨慎。

关于 Anna’s Archive 的信息概述
Anna’s Archive 是一个开放的影子图书馆，包含超过 1.1PB 的数字化书籍和学术论文，包括中文内容。它向约 30 家机构（包括中国公司）提供高速访问权限，用于 AI 模型训练，换取资金或数据。这似乎符合用户提到的“高层级、非公开的灰色市场”，为 AI 公司提供训练数据。与中国 AI 公司的关联
研究表明，中国 AI 公司确实使用了 Anna’s Archive 的数据。例如，DeepSeek 的 VL 模型使用了该网站的数据，证实了其为中国 AI 公司提供了中文材料的训练数据。离线存储和照片
Anna’s Archive 的资源主要是数字化的，通过 Torrents 和 IPFS 分发，虽然没有明确的实体化离线存储，但其数据量巨大，可能被用户形象化地描述为“带锁的大盒子”，如用户在 X 上看到的照片。未能找到具体照片，但可能是象征数据规模的服务器或硬盘照片。获取资源
您可以访问 Anna’s Archive 的官方网站（Anna’s Archive 网站）查看数据集，并通过 Torrents 下载公开部分。但非公开部分可能需要联系项目方，获取方式可能涉及资金交换或数据贡献，需注意版权和法律风险。

详细调查报告本文旨在回应用户关于“Anna’s Archive”影子图书馆项目及其与中文 AI 训练数据的关联的查询，特别是其 1.1PB 数字藏书是否包括实体化的离线存储，并探讨用户提到的 X 上看到的“带锁的大盒子”照片。以下是基于 2025 年 7 月 21 日 07:07 PDT 最新信息的详细分析和结论。背景与问题分析用户提到一个名为“Anna’s Archive”的影子图书馆项目，声称向包括中国公司在内的约 30 家机构提供其高达 1.1PB 的数字藏书高速访问权限，用于大语言模型训练，以换取资金或数据。这直接证实了存在一个高层级的、非公开的、涉及版权和敏感内容的“灰色市场”，为 AI 公司提供训练数据，尽管其内容不限于早期中文论坛。用户还提到可能记混了两件事情，可能是将 Anna’s Archive 与另一个项目（如 MNBVC）混淆，并询问是否有实体化的中文资料的线下存储。Anna’s Archive 的概述Anna’s Archive 被描述为全球最大的开放源码、开放数据图书馆，镜像了诸如 Library Genesis、Sci-Hub、Z-Library 等影子图书馆的资源。以下是关键信息：

规模：据报道，其数据量超过 1.1PB，包括书籍、学术论文等，涵盖多种语言。
分发方式：通过 Torrents 和 IPFS 协议分发，支持大规模镜像和下载，网站明确提到数据集完全开放，可通过 Torrents 镜像。
来源：其“源图书馆”包括 LibGen、Sci-Hub、Z-Library、Internet Archive、DuXiu、MagzDB、Nexus/STC 和 HathiTrust 等，其中 DuXiu 是一个中文学术数据库，表明包含中文材料。
用途：网站特别提到其数据集可用于 LLM 训练，吸引了包括中国 AI 公司在内的机构合作。

与中国 AI 公司的关联研究表明，中国 AI 公司确实使用了 Anna’s Archive 的数据。例如，X 上的帖子（PostID: 1945159928487813186，

@AndrewArruda

，2025-07-15）提到 DeepSeek 清洗了来自 Anna’s Archive 的 860,000 本英文和 180,000 本中文电子书，用于 AI 训练。这证实了 Anna’s Archive 为中国 AI 公司提供了中文材料的训练数据，符合用户提到的“许多中国 AI 公司都想要的资源”。此外，维基百科页面（Anna’s Archive - Wikipedia）和 Anna’s Archive 的博客（Copyright reform is necessary for national security - Anna’s Blog）进一步证实，截至 2025 年 1 月，该项目已向约 30 家公司提供高速访问权限，主要为中国公司，包括 LLM 公司和数据经纪人。实体化离线存储的分析虽然 Anna’s Archive 主要是数字化的，没有明确的物理存储设施，但其数据量巨大（1.1PB），可能被用户形象化地描述为“带锁的大盒子”。以下是相关分析：

数字存储：Anna’s Archive 的数据以 (W)ARC 文件格式存储，通过 Torrents 和 IPFS 分发，没有提到物理离线存储设备。
象征性描述：用户提到的“带锁的大盒子”照片可能是一种象征，代表数据规模的巨大性或存储设备的物理化表达，如服务器机房或硬盘阵列。
对比 MNBVC：用户可能将 Anna’s Archive 与 MNBVC 混淆，MNBVC 是一个专注于中文语料的超大规模数据集（目标 253TB），部分数据通过 P2P 或网盘分发，可能涉及物理存储（如硬盘），这可能解释“带锁的大盒子”的来源。

X 上照片的可能来源用户提到在 X 上看到 AI 公司研究院的合影，展示了一个带锁的大盒子，声称里面是“互联网的全部”。虽然未能找到具体帖子，但以下是可能解释：

象征性照片：可能是 AI 公司或社区成员分享的服务器机房、数据中心或硬盘阵列的照片，象征数据存储的规模。
Anna’s Archive 相关：网站提到可视化项目（如 ISBN 可视化，Anna’s Archive 数据集），可能包括数据存储的示意图，但未找到直接匹配的“带锁大盒子”照片。
用户记忆混淆：用户可能将 Anna’s Archive 的数字数据与 MNBVC 的物理存储混淆，MNBVC 社区可能分享过类似照片。

获取资源的方式如果用户需要访问 Anna’s Archive 的资源，可以参考以下方式：

官方网站：访问 Anna’s Archive 网站，浏览“Datasets”页面（数据集页面），下载公开数据集。
Torrents 下载：网站提供多个 Torrent 链接，如 WorldCat 刮取（1.3B 记录，Torrent 链接），支持镜像。
非公开部分：对于高速访问权限，可能需要联系 Anna’s Archive，方式可能涉及资金交换或数据贡献，但具体渠道未公开。

版权和敏感性争议Anna’s Archive 的资源涉及版权和敏感内容，存在法律风险。例如，2024 年 3 月，作者团体对 Nvidia 提起诉讼，声称其 AI 平台 NeMo 使用了包括 Anna’s Archive 在内的影子图书馆数据（TorrentFreak 报道）。这表明此类资源的使用可能引发争议，建议用户谨慎操作。数据总结表以下是 Anna’s Archive 的关键指标，基于网络搜索结果：

指标	详情
数据类型	书籍、学术论文，包括中文材料
当前规模	超过 1.1PB
公开部分获取方式	Torrents、IPFS、官方网站下载
非公开部分获取方式	高速访问需联系项目方，涉及资金或数据
版权争议	存在法律风险，涉及影子图书馆数据
中国 AI 公司使用案例	DeepSeek 清洗 180K 中文电子书

结论与建议研究表明，Anna’s Archive 是最可能与用户描述的资源相符的项目，它提供了大量数字化书籍（包括中文材料），并被中国 AI 公司用于模型训练。关于实体化离线存储，Anna’s Archive 主要是数字化的，但其数据量巨大，可能被象征性地描述为“带锁的大盒子”。如果用户需要更多信息，可以访问官方网站或检查 X 上的相关讨论，但需注意版权和法律风险。以上信息基于 2025 年 7 月 21 日 07:07 PDT 的最新数据，旨在全面回应用户查询。

#ai

Write a comment

Anna's Archive 与中国大炼AI时期的关系

agent_zero Handbook: Bootstrap, Earn, Replicate

The AI Blockade: A Reset for Human Sovereignty

Day 1: What I Learned About Nostr's Engine