play-rounded-fill
Новости

Найден способ ускорить работу больших языковых нейросетей на 10-15%

Российские исследователи обнаружили принципиально новое свойство больших языковых моделей, которое позволит ускорить работу этого типа нейросетей на 10-15% без потери качества. Обнаруженный эффект кажется очень контринтуитивным, он противоречит многим представлениям о глубоком обучении. В то же время, именно он позволяет тратить меньше вычислительных ресурсов на развертку и инференс больших языковых моделей. Понимая важность работы для научного сообщества, ученые поделились регуляризатором с коллегами и опубликовали его в открытом доступе.

Ученые Института искусственного интеллекта AIRI, а также специалисты из SberAI и “Сколтеха” совершили это открытие при изучении свойств нейросетей-трансформеров. Так исследователи называют популярную архитектуру систем искусственного интеллекта, к числу которых относятся все известные диалоговые боты, такие как ChatGPT, и прочие большие языковые модели.

В прошлом математики и специалисты в области разработки ИИ считали, что одной из ключевых особенностей в работе нейросетей-трансформеров, позволяющей им получать неочевидные ответы на сложные вопросы, является то, что они сильно нелинейны по своей природе. Российские ученые проверили, характерно ли это для всех слоев подобных нейросетей, для этого они изучили устройство двух десятков языковых моделей с открытым исходным кодом.

Проведенный исследователями анализ показал, что для числовых представлений данных в этих системах ИИ характерна очень высокая линейная зависимость, в некоторых случаях близкая к 99%. По словам ученых, это позволяет значительно упростить архитектуру больших языковых моделей и ускорить их работу без серьезных потерь в качестве, если учесть влияние линейности на процесс предобучения. Для реализации этой идеи ученые разработали алгоритм-регуляризатор и выложили его в открытом доступе.

Потенциал сокращения вычислительных ресурсов на обучении оценивается в порядке до 10%. Ученые в Сбербанке планируют провести тестирование рассмотренной идеи и в случае успеха – тиражировать ее на флагманские модели. Поиск таких смекалок в ИИ-архитектурах позволяет частично компенсировать вычислительный голод, поэтому продолжим поддержку таких исследований в направлении обучения больших моделей.

Так называемые большие языковые модели или нейросети (LLM) представляют собой сложно устроенные системы ИИ, которые были обучены на большом количестве неразмеченного текста и обладают миллиардами параметров. Благодаря особенностям процесса их обучения и архитектуре, они способны решать очень широкий перечень задач и при этом демонстрировать значительные общие знания о мире. К их числу относятся системы ChatGPT, Claude, LLaMA и прочие похожие на них нейросети.

Источник: nauka.tass.ru