Нейролента - подборка новостей о нейронных сетях, ChatGPT

RAG Challenge на годовых отчетах компаний. В последнее...

RAG Challenge на годовых отчетах компаний

В последнее время в комментариях было много обсуждений про эффективность разных подходов. Особенно вектора против knowledge maps. Но ведь технологии совсем не важны. Важно только, работает в итоге AI система с LLM под капотом или несет пургу.

И это можно измерить и сравнить. В чатике канала в итоге договорились до небольшого дружеского соревнования 🍻

Идея такая. Каждый желающий пилит свой RAG, который может давать ответы на вопросы по пачке годовых отчетов компаний. Вопросы на information retrieval - сколько человек работает в компании X? У какой компании ликвидность больше? У кого есть виноградники во Франции, и в каких провинциях. Вкладывается ли компания Y в green bonds? итп

Кстати, если у кого-то получатся хорошие результаты - это круто. Ведь кейс интересен стартапам и компаниям побольше. Это прямо ассистент для отдела продаж.

Каждый пилит свой RAG или использует существующую систему. Главное, чтобы там было две фишки:

1. Возможность загрузить тестовый набор отчетов (выберем случайно все вместе, штук 100)
2. Возможность загрузить список вопросов и получить список ответов.

Между первым и вторым шагом может пройти, скажем, часов 5-6 (чтобы система могла переварить данные, посчитать embeddings или прогнать экстракторы)

Исходники открывать не обязательно.

Если кому-то интересно, вот ссылка на набор файлов для обучения - ZIP, 100 MB. В тестовом наборе файлов их, естественно, не будет.

Что скажете?

Ваш, @llm_under_hood 🤗

PS: Что по срокам?

Я предлагаю так сделать - как несколько человек готовых наберется (хотя бы пара), то сформируем набор вопросов с документами и прогоним тесты вместе.

Если потом еще кто-то подтянется, можно заново будет это повторить, на новых документах и вопросах.