Что прикольно, проверили на двух разных кластерах: LUMI...
Что прикольно, проверили на двух разных кластерах: LUMI с AMD MI250X (до 256 нод с 4 GPU каждая с 128GB) и MosaicML с NVIDIA A100 (27 нод с 8 GPU и 40GB). С незначительными отличиями в настройках (размер батча) итоговый перформанс моделей получился почти идентичный. Было бы интересно сравнить с точки зрения эффективности самих кластеров и затрат на них. По количеству GPU вроде как LUMI почти в 4 раза больше железа задействовал, а по памяти он вообще был в 15 раз больше (131TB против 8.6TB). Непонятно, почему так.
По результатам на zero-shot, OLMo где-то чуть ниже Лам (первой и второй), Falcon и MPT. В сравнении с instruction-tuned версиями где-то на уровне Llama-2-Chat. В целом по цифрам заметно отстаёт от топовых на сейчас моделей, той же Gemma 7B, но Gemma не настолько открытая, она open, но не open source.
Как теперь принято, посчитали углеродный след. В кластере LUMI он нулевой (потому что на энергии от гидроэлектростанции работает), в кластере с NVIDIA в Австралии получилось 70 tCO2eq. Если я правильно понимаю, то полёт туда-обратно между Бостоном и Лондоном даёт тонну на человека (https://climate.mit.edu/ask-mit/how-much-ton-carbon-dioxide), и если там летят условно 300 человек, то это четыре таких обучения моделей.
Ну в общем круто, что всё выложено, research делать на этом должно быть просто. А с точки зрения коммерческих применений, наверное, лучше файнтюнить Gemma 7B.
По результатам на zero-shot, OLMo где-то чуть ниже Лам (первой и второй), Falcon и MPT. В сравнении с instruction-tuned версиями где-то на уровне Llama-2-Chat. В целом по цифрам заметно отстаёт от топовых на сейчас моделей, той же Gemma 7B, но Gemma не настолько открытая, она open, но не open source.
Как теперь принято, посчитали углеродный след. В кластере LUMI он нулевой (потому что на энергии от гидроэлектростанции работает), в кластере с NVIDIA в Австралии получилось 70 tCO2eq. Если я правильно понимаю, то полёт туда-обратно между Бостоном и Лондоном даёт тонну на человека (https://climate.mit.edu/ask-mit/how-much-ton-carbon-dioxide), и если там летят условно 300 человек, то это четыре таких обучения моделей.
Ну в общем круто, что всё выложено, research делать на этом должно быть просто. А с точки зрения коммерческих применений, наверное, лучше файнтюнить Gemma 7B.
Источник: gonzo-обзоры ML статей
2024-03-10 12:14:57