Нейролента - подборка новостей о нейронных сетях, ChatGPT

📑RedPajama: текстовый датасет на 1.2 триллиона токенов!

Недавно я писал про открытую модель Dolly 2.0. Теперь таких моделей станет больше, ведь подъехал самосвал с текстовыми данными!

RedPajama - это датасет на 1.2 триллиона текстовых токенов, созданный с целью воспроизведения передовых LLM. Датасет был воссоздан, следуя рецепту описанному в статье о LLaMA (то есть LLaMA училась на чем-то похожем). Кайф в том, что RedPajama-Data-1T является открытым и доступным для скачивания, то есть на нем можно обучать свои модельки.

RedPajama-Data-1T - это 2048 json файлов, которые включают 7 сегментов данных:

- CommonCrawl: 5 дампов
- C4 датасет
- GitHub код, отфильтрованный по лицензиям
- arXiv: Научные статьи
- Books: Корпус открытых книг
- Wikipedia: Подмножество страниц
- StackExchange: скроулили 28 крупнейших сайтов платформы

Кажется, что через пару месяцев мы увидим в open-source полностью открытую версию LLaMA, обученную с нуля с использованием этого набора данных.

Блогпост
Скачать датасет

@ai_newz