OpenAI Data Partnerships

Современные технологии ИИ изучают навыки и аспекты нашего мира — людей, их мотивацию, взаимодействия и способы общения — путем обработки данных, на которых они обучаются. Но при этом чтобы в конечном итоге сделать безопасный AGI полезным для всего человечества, нужно, чтобы модели глубоко понимали все топики, отрасли, культуры и языки, что требует как можно более широкого набора обучающих данных.

OpenAI заинтересованы в крупных наборах данных, которые сегодня еще не легкодоступны онлайн. При этом важно помнить, что работать они могут почти с любой модальностью: текст, изображения, аудио или видео. Не зря ведь разрабатывали GPT-4-Vision и Whisper! Более того, с помощью перевода в текст GPT-4 может данные легко отфильтровать (если провайдеру потребуется помощь).

Особенно компания хочет видеть данные, которые выражают человеческие намерения в длинной форме (например, длинные тексты или разговоры, а не отдельные их фрагменты) — на любом языке и в любом формате.

Причём, датасеты можно предоставлять как и в публичной форме (чтобы они было доступны всем — OpenAI готовы в этом помогать, и даже выложить обученные на публичных данных модели), так и в приватной.

Ну если ну вдруг вам есть что показать (может меня читает СЕО крупного архива? хранилища? Больницы, в конце концов?) — подать заявку можно здесь.

Одна точка зрения: ряяяяя OpenAI обленились и хотят получать даже данные нахаляву
Адекватная точка зрения: вау, хотят помочь оцифровать большие архивы, недоступные до этого, и потенциально выпустить открытые модели на их основе в помощь сообществу

А про споры вокруг НКРЯ (Национальный корпус русского языка) и противности Яндекса можете почитать у Тани вот тут.

Источник: Сиолошная

2023-11-09 18:25:18