Nvidia выкатила ChatQA - продавцы лопат наконец-то вышли...
Nvidia выкатила ChatQA - продавцы лопат наконец-то вышли из тени.
Это целое семейство LLM, от 7В до 70В параметров, специально заточенных по чаты (вопрос-ответ).
Конечно, по утверждениям Nvidia они наступают на пятки GPT-4:
"Примечательно, что наш ChatQA-70B может превзойти GPT-4 по среднему баллу на 10 наборах данных разговорного QA (54,14 против 53,90), не опираясь на синтетические данные моделей GPT от OpenAI."
Пока можно сказать одно, с железом для тренировки моделей у них проблем нет.
Много интересного прямо во введении в статью - в основе лежит клан Лламы:
We build a family of ChatQA models based on Llama2-7B, Llama2-13B, Llama2-70B and a in-house 8B pretrained GPT.
10 датасетов, включая 5 наборов данных с длинными документами, которые требуют поиска(retrieval), и 3 набора данных с таблицами.
Тут вот с интернетиках пишут, что модель умеет отвечать на вопросы, которые не имеют ответов.
Это не так, она просто умеет отвечать "я не знаю ответ", вместо того, чтобы галлюционировать.
"Добавление небольшого количества «unanswerable» образцов при настройке инструкций может
управлять моделью для генерации ответа «не могу ответить» когда это необходимо, таким образом в значительной степени уменьшает галлюцинации.
Кода, как обычно у Нвидии нет, одна бумага.
Осталась одна Эппле с неотвеченными вопросами о том, доколе они будут тормозить со своей LLM..
https://analyticsindiamag.com/nvidia-introduces-chatqa-gpt-4-level-conversational-qa-models/
https://www.reddit.com/r/LocalLLaMA/comments/19as4lf/nvidias_new_paper_introduces_chatqa_model_that_is/
Это целое семейство LLM, от 7В до 70В параметров, специально заточенных по чаты (вопрос-ответ).
Конечно, по утверждениям Nvidia они наступают на пятки GPT-4:
"Примечательно, что наш ChatQA-70B может превзойти GPT-4 по среднему баллу на 10 наборах данных разговорного QA (54,14 против 53,90), не опираясь на синтетические данные моделей GPT от OpenAI."
Пока можно сказать одно, с железом для тренировки моделей у них проблем нет.
Много интересного прямо во введении в статью - в основе лежит клан Лламы:
We build a family of ChatQA models based on Llama2-7B, Llama2-13B, Llama2-70B and a in-house 8B pretrained GPT.
10 датасетов, включая 5 наборов данных с длинными документами, которые требуют поиска(retrieval), и 3 набора данных с таблицами.
Тут вот с интернетиках пишут, что модель умеет отвечать на вопросы, которые не имеют ответов.
Это не так, она просто умеет отвечать "я не знаю ответ", вместо того, чтобы галлюционировать.
"Добавление небольшого количества «unanswerable» образцов при настройке инструкций может
управлять моделью для генерации ответа «не могу ответить» когда это необходимо, таким образом в значительной степени уменьшает галлюцинации.
Кода, как обычно у Нвидии нет, одна бумага.
Осталась одна Эппле с неотвеченными вопросами о том, доколе они будут тормозить со своей LLM..
https://analyticsindiamag.com/nvidia-introduces-chatqa-gpt-4-level-conversational-qa-models/
https://www.reddit.com/r/LocalLLaMA/comments/19as4lf/nvidias_new_paper_introduces_chatqa_model_that_is/
Источник: Метаверсище и ИИще
2024-01-21 16:37:39