
4月3日的Home报道说,Wikipedia运营商Wikimedia Foundation在4月1日当地时间的博客文章中说,Web爬网的AI培训数据集的资源规定了非营利组织的运营成本。 Wikipedia兄弟的项目Wiki Commons(注意:Wiki Commons)存储了大量的多媒体数据集,可用于AI模型中的培训。根据统计数据,自2024年1月以来,从Wikimedia Commons下载多媒体内容的带宽增长了50%,这一趋势一直是自动程序而不是人类操作的主要原因。 Wikimedia基金会此前曾处理过由紧急情况引起的人类用户的交通攀升,但是在AI期间,自动爬行者活动的频率增加了,继续破坏现有K的现有组织,这使基金会可以花费大量时间和资源来响应非真实交通。 Wikimedia基金会的数据Sto愤怒模型是,低频内容仅存储在主要数据中心中,而所请求的高频数据将备份到更相邻的数据中心。自动爬网的自动爬网方法的“遍历”方法意味着它们将更多的流量发送到主要数据中心,该数据中心的交通成本更高。根据Wikimedia基金会的统计数据,机器人以核心数据中心流量资源的65%,占整体观点的35%。此外,自动轨道甚至访问了Wikimedia Foundation(例如代码审查平台,错误跟踪器)的基本环境环境系统的URL。 Wikimedia Foundatio表示,即使组织不是收入,并且每个项目的内容都是免费的,也无法免费使用其基础设施。应该建立负责任的基础设施使用规范,并且不应重复“公地的悲剧”。