На работе за последние полгода несколько раз столкнулись...

На работе за последние полгода несколько раз столкнулись с тем, что клиент не может предоставить большого количества данных для обучения чего-либо разумного. При этом строго хотелось использовать не API, а локальные модели. В такой ситуации обычно хочется кричать

😭

Благо, решение есть — генерация синтетических данных с последующим обучением локальных моделей на них. По сути, мы занимаемся дистилляцией знаний/навыков крутой LLM вроде GPT-4, переливая их в маленькую локальную модель. Впервые такой подход я увидел в статье Promptgator, и даже делал про неё презентацию. Записи доклада нет — не собрали 400 ♥️ вот на этом посте: тык. Но зато там есть презентация!

Так вот, синтетические данные и умение через промпты использовать модель как разметчик — дело очень важное. Поэтому я саггрегировал найденные знания в 2 поста, которые запихнул в https://www.promptingguide.ai (сайт не мой). Для тех кто не знает — это сайт-туториал по промптам, там есть и про настройки параметров генерации, и про few-shot learning, и вот теперь про синтетику.

Generating Synthetic Dataset for RAG: https://www.promptingguide.ai/applications/synthetic_rag
Tackling Generated Datasets Diversity: https://www.promptingguide.ai/applications/generating_textbooks

Не забывайте делиться в профильных чатах, чтобы все интересующиеся увидели!

Источник: Сиолошная

2023-10-04 20:37:52