Embedchain абстрагирует весь процесс загрузки набора данных, его разбиения на части, создания векторных представлений (embeddings) и сохранения их в векторной базе данных.
Все это и раньше можно было сделать с помощью Python кода и OpenAI API, но требовало глубокого понимания как работают Embeddings, расчет дистанций между векторами и т.д. Embedchain упрощает весь процесс сводя его по сути к коду из пару десятков строк.
Представим, вы хотите создать бота Naval Ravikant, из информации на основе 1 видео на YouTube, 1 книги в формате PDF и 2 его блог-постах, а также нескольких пар вопрос-ответ, которую вы загрузили. Все, что вам нужно сделать, это добавить ссылки на видео, PDF и блог-посты, а также пару вопрос-ответ, и Embedchain создаст для вас бота.
Embedchain поддерживает следующие форматы: YouTube видео, PDF файлы, веб-страницы, текст и пары вопрос-ответ.
Стек технологий на котором это все работает:
- Langchain как фреймворк LLM для загрузки, разделения и индексации данных;
- Модель встраивания Ada от OpenAI для создания embeddings;
- ChatGPT API от OpenAI как LLM для получения ответов, учитывая контекст;
- Chroma в качестве векторной базы данных для хранения embeddings