XTrimoPGLM: первый ИИ, который сам создает природу



Учёные разработали инновационного "ИИ-учёного" xTrimoPGLM, который способен как понимать, так и создавать белковые последовательности, используя единый подход к обучению. Это решение открывает совершенно новый путь к работе с биологическими данными на уровне последовательностей аминокислот, как если бы они были текстом на естественном языке.

Ранее существующие модели, изучающие белки, использовали различные методы предобучения: одни восстанавливали недостающие участки (autoencoding), другие предсказывали следующую аминокислоту (autoregressive). Однако каждая из них была эффективна только в одной конкретной задаче — либо в понимании структуры белка, либо в генерации новых.

xTrimoPGLM сочетает в себе обе стратегии и обучается на основе совместной цели, охватывая сразу оба подхода. Это позволило масштабировать модель до беспрецедентных размеров — 100 миллиардов параметров и триллиона обучающих токенов.

Результаты впечатляют: xTrimoPGLM продемонстрировал лучшие результаты в 18 различных задачах по анализу белков, включая классификацию, предсказание свойств и взаимодействий. Более того, модель позволяет заглянуть в белковую структуру на атомном уровне и служит основой для новой 3D-модели, предсказывающей структуру белка с точностью, превосходящей аналогичные инструменты на базе языковых моделей.

Но это не только анализ — модель также способна создавать новые белки, соблюдая принципы природных последовательностей. А после дополнительного обучения на специализированных наборах данных — даже выполнять целенаправленную генерацию с заданными свойствами, что открывает путь к разработке новых лекарств и ферментов.

Вес модели и наборы данных уже опубликованы на платформе HuggingFace и доступны для исследователей. Это делает xTrimoPGLM значимым вкладом в развитие белковых foundation-моделей и расширяет горизонты ИИ в биологических науках.

13:54 08.04.2025 | Просмотры: 37