Wikipedia створює спеціальний набір даних для навчання ШІ, щоб зменшити навантаження від ботів

У квітні 2025 року Wikimedia Foundation оголосила про запуск нового набору даних, оптимізованого для навчання штучного інтелекту, у співпраці з платформою Kaggle citeturn0news18. Цей крок спрямований на зменшення навантаження на сервери Wikipedia, спричиненого масовим скрапінгом ботами, які використовують її контент для тренування моделей ШІ.
Проблема масового скрапінгу
З початку 2024 року обсяг трафіку на Wikipedia зріс на 50%, значною мірою через автоматизовані запити від ботів, які збирають дані для навчання ШІ citeturn0search5. Ці боти часто обходять кешування, звертаючись до менш популярних сторінок, що призводить до значного навантаження на інфраструктуру та зростання витрат.
Співпраця з Kaggle
У відповідь на цю проблему Wikimedia Foundation спільно з Kaggle створила структурований набір даних у форматі JSON, який включає:
- резюме статей
- короткі описи
- посилання на зображення
- дані з інфобоксів
- структуровані розділи статей
Цей набір даних доступний англійською та французькою мовами та призначений для полегшення доступу розробників до контенту Wikipedia без необхідності скрапінгу
Відкритий доступ та ліцензування
Набір даних має відкриту ліцензію, що дозволяє як великим технологічним компаніям, так і незалежним дослідникам використовувати його для навчання, тестування та вдосконалення моделей ШІ. Це також сприяє зменшенню навантаження на сервери Wikipedia, оскільки розробники отримують доступ до необхідної інформації безпосередньо через Kaggle.
Запуск цього набору даних є важливим кроком у забезпеченні сталого розвитку відкритих знань в епоху штучного інтелекту. Він дозволяє зберегти доступність та надійність Wikipedia, водночас підтримуючи потреби спільноти розробників ШІ.