Сегодня 08 июня 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Википедия» выпустила набор данных для обучения ИИ, чтобы боты не перегружали её серверы скрейпингом

Фонд Wikimedia (некоммерческая организация, управляющая «Википедией») предложил компаниям вместо веб-скрейпинга контента «Википедии» с помощью ботов, который истощает её ресурсы и перегружает серверы трафиком, воспользоваться набором данных, специально оптимизированным для обучения ИИ-моделей.

 Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».

Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.

Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей».

На данный момент у Wikimedia есть соглашения об обмене контентом с Google и Internet Archive, но партнёрство с Kaggle позволит сделать данные более доступными для небольших компаний и независимых специалистов в сфере Data Science. «Являясь площадкой, к которой сообщество машинного обучения обращается за инструментами и тестами, Kaggle будет рада стать хостом для данных фонда Wikimedia», — сообщила Бренда Флинн (Brenda Flynn), руководитель по коммуникациям в Kaggle.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Запрет на TikTok в США может быть отложен на неопределённый срок 2 ч.
Высокий суд Англии вывел на чистую воду адвокатов, использующих ИИ, — они ссылались на фейковые прецеденты 2 ч.
Новая статья: Blades of Fire — и боец, и кузнец. Рецензия 3 ч.
Owlcat Games анонсировала ролевой боевик The Expanse: Osiris Reborn в духе Mass Effect — первый трейлер и подробности 3 ч.
В Северной Корее внезапно пропал интернет, и никто не знает, почему 6 ч.
Магазин Microsoft Store обновился — больше системных интеграций, кнопка Copilot и повышение производительности 6 ч.
Состоялся анонс Mortal Shell 2 — продолжения зрелищного боевика про беспощадное избиение уродливых монстров 9 ч.
AMD впервые приняла участие в бенчмарке MLPerf Training, но до рекордов NVIDIA ей ещё очень далеко 11 ч.
Стартап xAI попытался взять в долг $5 млрд, несмотря на ссору Маска с Трампом 11 ч.
Хакеры обнаружили уязвимость в Nintendo Switch 2 спустя день после релиза 14 ч.
Акции Broadcom упали из-за слабого прогноза, несмотря рост прибыли и выручки 4 ч.
Признаки жизни, сенсационно обнаруженные на экзопланете K2-18b, теперь вызывают у учёных сомнения 4 ч.
От «железа» до агентов: «К2 НейроТех» представил ПАК-AI для разработки и внедрения ИИ на предприятиях 4 ч.
Meta объявила, что текущий год станет «поворотным» для виртуальной и дополненной реальности 10 ч.
HPE представила отказоустойчивые системы Nonstop Compute на базе Intel Xeon Sapphire Rapids 10 ч.
Synology выпустила стоечное хранилище RackStation RS2825RP+ с процессором AMD Ryzen Embedded 10 ч.
Трамп отказался от перемирия с Маском и угрожает урезать ему правительственные контракты 10 ч.
Трамп разрешил сверхзвуковые полёты над США, а также подписал указы об аэротакси и дронах 12 ч.
Японцы создали экологичный пластик, который быстро растворяется в солёной воде 12 ч.
Nintendo Switch 2 оказалась на удивление прочной, но экран можно легко поцарапать 12 ч.
OSZAR »