Нейролента - подборка новостей о нейронных сетях, ChatGPT

Вчера после написания поста из-за жары не мог...

Вчера после написания поста из-за жары не мог уснуть, решил скачать XCode (IDE для разработки приложений под системы Apple) с идеей посмотреть, насколько легко не разбирающемуся человеку написать приложение под VisionOS. Я не то что на Swift не писал — я кроме Python только в HTML немного тыкал да в Java (во времена школы, не дальше классов в коде).

Идея была простая — делать распознавание объектов с камеры, и либо создавать описание сцены через LLM/VLM, либо выводить модельку объекта (из заранее заготовленного списка). Сколько не пытался найти, как получить картинку с камеры — всё без толку. В итоге через полтора часа решил погуглить и нашёл, что да, Apple реально не позволяют получать стрим видео или просто фото с камер. Только сырые сигналы с датчиков, либо уже обработанные данные (плоскости, смещение по осям координат, etc.). Жопа пригорела, конечно (лучше бы спал).

Почему не загуглил сразу отдельно? Потому что думал, что гарнитура вот только вышла, никто ещё не успел опробовать, но оказывается, что документация + библиотеки уже с полгода вывешены, потому люди их уже и в хвост и в гриву.

Решил для сублимации и практики сделать (не без помощи GPT-4) распознавание голоса (по задумке — с передачей в LLM, на деле — просто выводил текст + менял размер в зависимости от громкости). Да, с микрофона звук легко получить. До передачи в LLM руки не дошли — модель долго качалась (спасибо азиатскому серверу), но я почти всё нужное написал через swift-transformers от HF.

После сна уже забил, надо было другим заниматься. Сейчас вышел в Твиттер, наткнулся на демку запуска Mistral7B в 4bit квантизации, решил с вами поделиться. Тут генерация примерно 9-10 токенов в секунду выходит. Для справки llama.cpp на M2 с 10 ядрами (как в Vision Pro) выдаёт 21.91 tok/s.

В общем, интересно, ждём разных ускорений и приколов. За отрезанный к камере доступ жалко
😪


P.S.: доки и туториалы с обучающими проектами у Apple шикарные. Не хватает только AI-поиска, чтобы находить описанное простыми словами.