Large Language Model (LLM) Engineering

Приступаем к копанию темы и сбору материалов. Будет кому интересно, сделаем репо публичным.

Планы по изучению и применению LLM в организации

Интересует возможность дообучить модель технологического гиганта приватными (но не представляющими особой секретности) данными нашей компании, чтобы ответы по возникающим вопросам можно было получить быстрее и меньше отвлекать специалистов, занятых другими задачами.

Если у вас +/- аналогичные интересы, давайте коммуницировать, обмениваться информацией и наработками.

Телеграм группа:
https://t.me/matematika_org/

Что понадобится для создание собственной LLM с 0

Создание собственной языковой модели (LLM, от англ. “Large Language Model”) с нуля — это сложная задача, требующая больших вычислительных ресурсов, специализированных знаний в области машинного обучения, а также хорошего понимания обработки естественного языка. Вот основные шаги и компоненты, которые вам понадобятся:

Сбор и подготовка данных:
- Датасет: Вам нужны большие объемы текстовых данных. Источники могут включать книги, вики, интернет-страницы и различные корпуса текстов. Данные должны быть очищены и предварительно обработаны.
- Аннотация данных (опционально): Для некоторых задач может понадобиться аннотация данных, например, для обучения модели специфическим навыкам.
Написание или использование готовой архитектуры модели:
- Вам понадобится определиться с архитектурой модели. Большинство современных LLM основаны на архитектуре трансформеров. Примеры: GPT (Generative Pre-trained Transformer), BERT (Bidirectional Encoder Representations from Transformers).
- Вы можете использовать существующие библиотеки и фреймворки, такие как Hugging Face Transformers, PyTorch, TensorFlow, которые предоставляют уже готовые реализации популярных архитектур.
Настройка и обучение модели:
- Вычислительные ресурсы: Для обучения понадобится доступ к мощным графическим процессорам (GPU) или даже специализированным ускорителям, таким как TPUs от Google.
- Гиперпараметры: Вам необходимо будет выбрать гиперпараметры модели, такие как количество слоев, размер скрытого слоя, количество голов в механизме внимания и т. д.
- Обучение модели: Процесс может занять много времени, в зависимости от сложности модели и объема данных.
Тестирование и валидация:
- Вам нужно будет разделить данные на обучающую, валидационную и, возможно, тестовую выборки.
- Оцените качество модели на валидационной выборке, используя такие метрики, как Perplexity для задач генерации текста.
Оптимизация и дообучение:
- После начального обучения можно проводить дальнейшую донастройку модели на специализированных данных для улучшения производительности в конкретных задачах или областях.
Ресурсы и документация:
- Освойте основные концепции и методы NLP и DL, изучая соответствующие научные статьи и документацию к используемым библиотекам.
- Полезно следить за исследованиями и статьями, чтобы быть в курсе передовых методик и подходов.
Развертывание и интеграция:
- После успешного обучения и тестирования модели, следующий шаг — развертывание и внедрение модели в практическое приложение или сервис.
Этические аспекты и безопасность:
- Убедитесь, что модель не генерирует вредоносные, токсичные или предвзятые тексты. Регулярно оценивайте и улучшайте модель с этической точки зрения.

Помните, что создание LLM с нуля требует значительных усилий, поэтому вы можете рассмотреть возможность донастройки существующих моделей, чтобы значительно сократить время и ресурсы, необходимые для построения вашей системы.

[VideoCourse][Zerotomastery] AI Engineering Bootcamp: Retrieval Augmented Generation (RAG) for LLMs [ENG, 2025]

https://zerotomastery.io/courses/ai-engineer-bootcamp-retrieval-augmented-generation/

[YouTube][Aleksandar Haber PhD] RAGFlow with Local LLMs and Ollama: Step-by-Step Guide for Free Retrieval-Augmented Generation [ENG, 2025]

[YouTube][Aleksandar Haber PhD] Run DeepSeek-R1 on Raspberry Pi Locally and Securely with Graphics User Interface-Step by Step Guide [ENG, 2025]

[YouTube][Aleksandar Haber PhD] Easiest Local and Private Installation of DeepSeek-R1 with Graphics User Interface in Browser [ENG, 2025]

[YouTube][Aleksandar Haber PhD] Run Distilled DeepSeek-R1 with Graphics User Interface Locally and Privately on Windows [ENG, 2025]

[Videos][Paulo] DeepSeek R1 & Ollama Guide: Build Local AI Applications [ENG, 2025][1h 43m]

DeepSeek R1 & Ollama Guide: Build Local AI Applications

GitHub

[YouTube][Aleksandar Haber PhD] Correctly Install and Run RAGFlow Locally with Llama/Ollama and Create Local Knowledge Base and Chat [ENG, 2024]

Записал команды, чтобы не поить автора кофеином

[YouTube][freeCodeCamp.org] LLM Course – Build a Semantic Book Recommender (Python, OpenAI, LangChain, Gradio) [ENG, 2025]

https://github.com/t-redactyl/llm-semantic-book-recommender/tree/main

[YouTube][freeCodeCamp.org] Ollama Course – Build AI Apps Locally [ENG, 2024]

[Book][Manning][Christopher Brousseau and Matthew Sharp] LLMs in Production [ENG, 2024]

LLMs in Production

GitHub
https://github.com/IMJONEZZ/LLMs-in-Production

[VideoCourse][Zerotomastery] [Daniel Bourke] Learn Hugging Face by Building a Custom AI Model [ENG, 2024]

WebSite
https://learnhuggingface.com/

GitHub
https://github.com/mrdbourke/learn-huggingface

[VideoCourse][Sinan Ozdemir][O’Reilly] Practical Retrieval Augmented Generation (RAG) [ENG, 2024.11]

Marley

https://www.oreilly.com/library/view/practical-retrieval-augmented/9780135414378/

GitHub
https://github.com/sinanuozdemir/oreilly-retrieval-augmented-gen-ai/tree/main

Vector database (Походу не вариант)

https://www.pinecone.io/

[VideoCourse][Udemy] LLM Engineering Master AI & Large Language Models (LLMs) [ENG, 2024.11]

LLM Engineering Master AI & Large Language Models

GitHub
https://github.com/ed-donner/llm_engineering

Сравнение моделей

https://lmarena.ai/

Основной наш сайт по настройке окружений для обучения и разработки MLOps

Основной наш сайт по вычислениям МАТЕМАТИКА

эл.почта:

Marley

Работа на проектах с целителями, эзотерикой, оккультизмом, криптовалютами, ставками на спорт, карточными онлайн играми, микрокредитами, материалами для взрослых, организаций занимающихся политической или религиозной деятельностью, проектов для военных и полицейских ведомств - не интересует.