RAG Challenge на годовых отчетах компаний. В последнее...
RAG Challenge на годовых отчетах компаний
В последнее время в комментариях было много обсуждений про эффективность разных подходов. Особенно вектора против knowledge maps. Но ведь технологии совсем не важны. Важно только, работает в итоге AI система с LLM под капотом или несет пургу.
И это можно измерить и сравнить. В чатике канала в итоге договорились до небольшого дружеского соревнования 🍻
Идея такая. Каждый желающий пилит свой RAG, который может давать ответы на вопросы по пачке годовых отчетов компаний. Вопросы на information retrieval - сколько человек работает в компании X? У какой компании ликвидность больше? У кого есть виноградники во Франции, и в каких провинциях. Вкладывается ли компания Y в green bonds? итп
Кстати, если у кого-то получатся хорошие результаты - это круто. Ведь кейс интересен стартапам и компаниям побольше. Это прямо ассистент для отдела продаж.
Каждый пилит свой RAG или использует существующую систему. Главное, чтобы там было две фишки:
1. Возможность загрузить тестовый набор отчетов (выберем случайно все вместе, штук 100)
2. Возможность загрузить список вопросов и получить список ответов.
Между первым и вторым шагом может пройти, скажем, часов 5-6 (чтобы система могла переварить данные, посчитать embeddings или прогнать экстракторы)
Исходники открывать не обязательно.
Если кому-то интересно, вот ссылка на набор файлов для обучения - ZIP, 100 MB. В тестовом наборе файлов их, естественно, не будет.
Что скажете?
Ваш, @llm_under_hood 🤗
PS: Что по срокам?
Я предлагаю так сделать - как несколько человек готовых наберется (хотя бы пара), то сформируем набор вопросов с документами и прогоним тесты вместе.
Если потом еще кто-то подтянется, можно заново будет это повторить, на новых документах и вопросах.
В последнее время в комментариях было много обсуждений про эффективность разных подходов. Особенно вектора против knowledge maps. Но ведь технологии совсем не важны. Важно только, работает в итоге AI система с LLM под капотом или несет пургу.
И это можно измерить и сравнить. В чатике канала в итоге договорились до небольшого дружеского соревнования 🍻
Идея такая. Каждый желающий пилит свой RAG, который может давать ответы на вопросы по пачке годовых отчетов компаний. Вопросы на information retrieval - сколько человек работает в компании X? У какой компании ликвидность больше? У кого есть виноградники во Франции, и в каких провинциях. Вкладывается ли компания Y в green bonds? итп
Кстати, если у кого-то получатся хорошие результаты - это круто. Ведь кейс интересен стартапам и компаниям побольше. Это прямо ассистент для отдела продаж.
Каждый пилит свой RAG или использует существующую систему. Главное, чтобы там было две фишки:
1. Возможность загрузить тестовый набор отчетов (выберем случайно все вместе, штук 100)
2. Возможность загрузить список вопросов и получить список ответов.
Между первым и вторым шагом может пройти, скажем, часов 5-6 (чтобы система могла переварить данные, посчитать embeddings или прогнать экстракторы)
Исходники открывать не обязательно.
Если кому-то интересно, вот ссылка на набор файлов для обучения - ZIP, 100 MB. В тестовом наборе файлов их, естественно, не будет.
Что скажете?
Ваш, @llm_under_hood 🤗
PS: Что по срокам?
Я предлагаю так сделать - как несколько человек готовых наберется (хотя бы пара), то сформируем набор вопросов с документами и прогоним тесты вместе.
Если потом еще кто-то подтянется, можно заново будет это повторить, на новых документах и вопросах.
Источник: LLM под капотом
2024-03-21 10:52:23