Лабораторията за изчислителни системи на Huawei на Huawei пусна SINQ (квантоване на нормализиране на Sinkhorn), метод за квантоване с отворен код, който намалява изискванията за памет на големи езикови модели (LLM) с до 70%. Пробивът позволява натоварвания, които веднъж се нуждаят от Enterprise GPU като A100 или H100 на NVIDIA, за да работят ефективно на карти за потребителски клас като RTX 4090, като намаляват както хардуерните, така и облачните изчислителни разходи.

Проектът APACHE 2.0 -LICENSED вече е достъпен на GitHub и прегръщащо лице за безплатна употреба и комерсиализация. Huawei казва, че SINQ постига точност, близка до подходите, калибрирани с данни, докато превъзхожда други методи без калибриране като RTN и HQQ както за скорост, така и в прецизност. [TechNode reporting]

Свързани

Нашия източник е Българо-Китайска Търговско-промишлена палaта

By admin