維基媒體遭遇「AI爬蟲」衝擊!網友怒轟:這樣的開放怎麼持續?

野物堂 · 4/9/2025

隨著AI技術發展,維基媒體的帶寬使用量激增50%,爬蟲流量帶來重大挑戰!

隨著人工智慧(AI)技術的迅速發展,萬維網已遭遇新一波挑戰,尤其是以維基媒體基金會(Wikimedia Foundation)為首的開放知識平台正面臨前所未有的壓力。根據最新報導,自2024年1月以來,維基媒體的帶寬使用量激增了50%,主要源自於大量自動化的AI爬蟲在抓取數據。

根據維基媒體基金會於2025年4月2日發布的公告,自動化爬蟲在尋求AI模型訓練數據時,已對維基百科等伺服器造成嚴重影響。這些爬蟲以非人類的方式進行數據抓取,導致包含圖片和多媒體內容的下載需求急劇增加,產生了重大的技術和財務負擔。

維基媒體基金會指出,雖然僅有35%的頁面訪問來自爬蟲,但這些爬蟲所產生的流量卻佔據了65%的資源消耗。相比之下,人類使用者較常訪問熱門且經常緩存的文章,因此他們對服務器的負擔相對較輕。

技術上,這些爬蟲在行為上與普通網絡使用者有所不同,他們會傾向於批量訪問大量頁面,包括那些不常被訪問的內容,這使得維基媒體的核心數據中心不得不為這些請求提供服務,增加了運營成本。

發生如此劇變的背景下,維基媒體的網站可靠性團隊面臨著不斷攀昇的爬蟲攻擊,並已著手採取措施限制這些自動化流量。透過調整網站架構和引入新的技術來過濾爬蟲流量,團隊期望在不干擾正常流量的前提下,能夠有效減少這些爬蟲造成的後果。

這一情況同樣對其他自由開源軟件社區造成影響,許多開源項目因此採取了與維基媒體相似的行動,例如在源代碼庫上限制來自特定地區的爬蟲流量。

維基媒體的開放內容政策雖然鼓勵知識免費流通,但如果不加以管理,這種無限制的AI數據抓取將對開放知識平台的可持續性構成重大威脅。許多AI公司開發模型時,亦未對維基媒體的基礎設施進行相應的資源支持,這使得維基媒體未來的運營擔憂加劇。

維基媒體基金會呼籲更好的協調機制,確保AI開發者與資源提供者之間建立可靠的合作網絡,從而保證開放知識的持續性。他們表示:「我們的內容是自由的,但我們的基礎設施並不便宜。」

隨著AI技術的持續進步,對於維基媒體等開放平台來說,這不僅是技術挑戰,更是對其運營模式的一次考驗。如何平衡開放性與資源的可持續性,將成為未來重要的議題。在這一背景下,社會各界需要共同努力,促進開放知識的共存,共同應對數位時代帶來的挑戰。

延伸閱讀