You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
 
projs-2024-autumn/Индекс.md

2.2 KiB

Домашний индекс

Цель: Построить векторный индекс хотя бы по 1 млн научных статей. Дальнейшее развитие: https://cloud.google.com/use-cases/retrieval-augmented-generation + строить суммаризацию поверх.

Задачи:

  • выбор надежного (?) pdf-парсера для сохранения информации
  • выбор векторной базы + загрузка содержимого pdf в них
  • написание тестовых запросов

Материалы

Базы

Библиотеки для парсинга

AI парсилки

Здесь пример zero-shot pdf extraction на основе gpt-mini: https://github.com/getomni-ai/zerox?tab=readme-ov-file внутри есть ссылки на другие платные альтернативы: - https://aws.amazon.com/textract/pricing/#:~:text=Amazon%20Textract%20API%20pricing - https://cloud.google.com/document-ai/pricing - https://azure.microsoft.com/en-us/pricing/details/ai-document-intelligence/ - https://unstructured.io/api-key-hosted#:~:text=Cost%20and%20Usage%20%0AGuidelines

Здесь evaluation разных Multimodal Large Language Models: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation

Суммаризация

LLM

Фреймворк для сборки приложений на основе LLM: https://github.com/langchain-ai/langchain?tab=readme-ov-file

Text embeddings