Построить векторный индекс хотя бы по 1 млн научных статей. В дальнейшем можно использовать для https://cloud.google.com/use-cases/retrieval-augmented-generation + строить суммаризацию поверх.
Построить векторный индекс хотя бы по 1 млн научных статей.
**Цель:** собрать инструмент для обработки научных статей.
**Цель:** собрать инструмент для обработки научных статей.
Работа в этом направлении: https://arxiv.org/abs/2210.02830
Работа в этом направлении: https://arxiv.org/abs/2210.02830
**Задачи**:
**Задачи**:
- обзор существующих инструментов для разбора pdf, способных работать на обычном
ноутбуке
- обзор существующих облачных инструментов для разбора pdf
- выбор или, вероятно, написание/дописание своего инструмента
- ui на tauri + ts
**Что будем использовать**
**Что будем использовать**
- ts + tauri
- python/go/rust
# Доп материалы
# Доп материалы
## Text embeddings
## Text embeddings
- https://qdrant.github.io/fastembed/
- https://qdrant.github.io/fastembed/
@ -27,6 +35,7 @@
- https://pypi.org/project/tabula-py/
- https://pypi.org/project/tabula-py/
- apach-tika
- apach-tika
**AI парсилки**
**AI парсилки**
Здесь пример zero-shot pdf extraction на основе gpt-mini: https://github.com/getomni-ai/zerox?tab=readme-ov-file внутри есть ссылки на другие платные альтернативы:
Здесь пример zero-shot pdf extraction на основе gpt-mini: https://github.com/getomni-ai/zerox?tab=readme-ov-file внутри есть ссылки на другие платные альтернативы:
@ -38,7 +47,9 @@
Здесь evaluation разных Multimodal Large Language Models: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation
Здесь evaluation разных Multimodal Large Language Models: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation
**На чем можно писать GUI**
**На чем можно писать GUI**
- https://dioxuslabs.com/
- https://dioxuslabs.com/
- https://tauri.app
- https://tauri.app
- flutter???
- какой-то ultra fast tauri + angular setup https://github.com/maximegris/angular-tauri
- какой-то ultra fast tauri + angular setup https://github.com/maximegris/angular-tauri