Нейролента - подборка новостей о нейронных сетях, ChatGPT

Orion 14B: Новая базовая (и возможно огненная) LLM-модель...

Orion 14B: Новая базовая (и возможно огненная) LLM-модель от производителя подносов.

Это не шутка, это вполне себе интересная новость начала 2024 года.
Давайте по порядку.

Вышла новая базовая LLM-модель Orion 14B, которая обучена на 2.5Т многоязычном корпусе текстов, включая китайский, английский, японский, корейский и демонстрирует отличную производительность на этих языках. Есть файнтюн для чата, отлично работает при длине токена 200 тыс. и может поддерживать максимум 320 тыс.
Полный фарш из модификаций.
Orion-14B-Base
Orion-14B-Chat
Orion-14B-LongChat
Orion-14B-Chat-RAG
Orion-14B-Chat-Plugin
Orion-14B-Base-Int4
Orion-14B-Chat-Int4

Гики могут воспроследовать сюда, поглядеть спеки, скачать веса и даже есть демо (утром работало очень быстро).
https://huggingface.co/OrionStarAI/Orion-14B-Base
Демо:
https://huggingface.co/spaces/OrionStarAI/Orion-14B-App-Demo-EN

Теперь интересное.
Авторы модели (не файнтюна), а базовой кошерной модели - компания OrionStar. Которые производят роботов. В основном роботы-тележки-с-подносами. Которые бегают на выставках или в бизнесс-центрах и даже в аэропортах. См шапку.

Где они собирали датасеты неводомо из пдфки (ведомо что 90% - это китайский и английский). Но подумайте, производитель робототележек выпускает свою LLM!

Не стартап на сто миллионов, не гугль или микрософт. Просто промышленная компания.

Итого, что мы ожидаем в 2024 году? Полчища опен-сорсных моделей от компаний, у которых просто есть ресурсы. И это могут быть ЛЮБЫЕ крупные(пока) компании. А не только универы со стартапами и фаанги.

Не зря CBInsights пишут, что open source потихоньку сокращает разрыв с closed sourse - разрыв никуда не денется, но будет и дальше сокращаться.

Ну и следующий тренд - LLM-ки для инференска на телефонах.

Собираюсь разобрать 112 страниц этого отчета, но дайте время.

Немного смутило одно. В бенчмарках ни одного сравнения с Мистралем.

Хотите больше инфо, гляньте тут:
https://www.reddit.com/r/LocalLLaMA/comments/19ce7kw/a_new_base_model_orion_14b_trained_on_25t_tokens/