LLM-инженер. Часть 2 из 5 [Gigaschool] [Александр Потехин, Роман Соломатин]

Складчина: LLM-инженер. Часть 2 из 5 [Gigaschool] [Александр Потехин, Роман Соломатин]

2025-07-21_193852.png

Вторая из пяти складчин на полный курс.

Создавай, обучай и внедряй LLM‑проекты под руководством экспертов и практиков

Что даст курс?

  • Возможность создать LLM-проект
  • освоив технологии разработки LLM, вы сможете запускать свои проекты с нуля, создавая решения на базе передовых технологий.
  • Улучшить существующие сервисы
  • возможность создавать и оптимизировать LLM для реальных задач, повышая эффективность бизнес-процессов и улучшая качество сервисов.

В связи с высокой стоимостью (180 000 руб.) и продолжительностью (5,5 месяцев) курса, для удобства участников принято решение о его разделении на 5 частей. Каждая часть соответствует одному большому разделу программы. Каждая последующая складчина является продолжением предыдущей, и соответственно необходимо оплатить предыдущую.
Это вторая часть большого онлайн-курса, посвященная подготовке данных для RAG-систем. Вы научитесь правильно обрабатывать тексты, работать с векторными базами данных и энкодерами, а также освоите продвинутые методы информационного поиска и ранжирования для повышения релевантности ответов LLM.

Что вы освоите в этой части?
Ключевые навыки:

  • Обрабатывать тексты: парсинг, чанкинг, препроцессинг
  • Работать с энкодерами и векторными базами данных
  • Настраивать и оптимизировать системы информационного поиска (полнотекстовый, гибридный)
  • Использовать кросс-энкодеры для переранжирования и улучшения качества поиска
  • Оценивать качество энкодеров и методов поиска по метрикам

Основные инструменты:

  • FAISS
  • Hugging Face Transformers (для энкодеров)
  • BM25

Программа второй части курса
Раздел 2. Prerequisites для RAG

1. Работа с текстами
Лекция: парсинг, обработка текстов (применение ML + LLM в обработке)
Семинар: различные виды чанкинга
На выходе таланты:
Умеют выполнять базовую обработку текстов
Умеют работать с методами чанкинга для подготовки данных

2. Векторы
Лекция: векторная БД, энкодеры, MTEB
Семинар: развёртывание векторной БД, проверка качества различных энкодеров
Доп. литература: статья BGE-M3, статья E5
На выходе таланты:
Умеют работать с векторными базами данных
Умеют оценивать качество энкодеров и выбирать подходящие для задач

3. Информационный поиск
Лекция: полнотекстовый, гибридный поиск, BM25, симметричный и ассиметричный поиск
Семинар: сравнение симметричного поиска и ассиметричного на конкретном примере
На выходе таланты:
Умеют настраивать системы информационного поиска
Умеют оценивать методы поиска по их эффективности

4. Ранжирование
Лекция: инструменты ранжирования, метрики для оценки качества, переранжирование
Семинар: построение собственное системы ранжирования, использование кросс-энкодера для переранжирования
Доп. литература: обучение кроссэнкодера
На выходе таланты:
Умеют оценивать качество поиска по метрикам
Умеют создавать системы ранжирования и настраивать их под задачи
Умеют использовать кроссэнкодеры для улучшения качества поиска

Эксперты курса
Потехин Александр. NLP Lead X5 Tech
Соломатин Роман. ML Engineer (LLM, Ops) X5 Tech
Андреева Дарья. ML Engineer (NLP) X5 Tech
Желтова Кристина. Газпромбанк, директор по разработке моделей
Кокуйкин Евгений. CEO Raft

Цена: 36000 рублей (за вторую часть из пяти).

Предыдущие части курса:

Следующие части курса: