📑RedPajama: текстовый датасет на 1.2 триллиона токенов!
Недавно я писал про открытую модель Dolly 2.0. Теперь таких моделей станет больше, ведь подъехал самосвал с текстовыми данными!
RedPajama - это датасет на 1.2 триллиона текстовых токенов, созданный с целью воспроизведения передовых LLM. Датасет был воссоздан, следуя рецепту описанному в статье о LLaMA (то есть LLaMA училась на чем-то похожем). Кайф в том, что RedPajama-Data-1T является открытым и доступным для скачивания, то есть на нем можно обучать свои модельки.
RedPajama-Data-1T - это 2048 json файлов, которые включают 7 сегментов данных:
- CommonCrawl: 5 дампов
- C4 датасет
- GitHub код, отфильтрованный по лицензиям
- arXiv: Научные статьи
- Books: Корпус открытых книг
- Wikipedia: Подмножество страниц
- StackExchange: скроулили 28 крупнейших сайтов платформы
Кажется, что через пару месяцев мы увидим в open-source полностью открытую версию LLaMA, обученную с нуля с использованием этого набора данных.
Блогпост
Скачать датасет
@ai_newz
Недавно я писал про открытую модель Dolly 2.0. Теперь таких моделей станет больше, ведь подъехал самосвал с текстовыми данными!
RedPajama - это датасет на 1.2 триллиона текстовых токенов, созданный с целью воспроизведения передовых LLM. Датасет был воссоздан, следуя рецепту описанному в статье о LLaMA (то есть LLaMA училась на чем-то похожем). Кайф в том, что RedPajama-Data-1T является открытым и доступным для скачивания, то есть на нем можно обучать свои модельки.
RedPajama-Data-1T - это 2048 json файлов, которые включают 7 сегментов данных:
- CommonCrawl: 5 дампов
- C4 датасет
- GitHub код, отфильтрованный по лицензиям
- arXiv: Научные статьи
- Books: Корпус открытых книг
- Wikipedia: Подмножество страниц
- StackExchange: скроулили 28 крупнейших сайтов платформы
Кажется, что через пару месяцев мы увидим в open-source полностью открытую версию LLaMA, обученную с нуля с использованием этого набора данных.
Блогпост
Скачать датасет
@ai_newz
Источник: эйай ньюз
2023-04-17 20:35:53