Update projects

main
Aleksey Zubakov 4 months ago
parent 0a19c7068a
commit 83f13eed4c
  1. 9
      Граф_цитирования.md
  2. 7
      Индекс.md
  3. 13
      Читалка.md

@ -1,14 +1,13 @@
## Описание
Альтернативы, которые уже есть:
## Граф цитирования
**Цель:**
По существующей открытой базе https://www.crossref.org/ собрать web-инструмент визуализации ссылок между статьями.
**Задачи:**
- обработка базы crossref, выгрузка в базу для дальнейшего осуществления поиска
- написание backend на go для
- обработка открытой базы crossref, выгрузка в базу для дальнейшего осуществления поиска
- написание backend на go
- написание запросов к БД с индексом
- ui (огромный простор для фантазии/экспериментов)
**Что будем использовать:**

@ -1,8 +1,8 @@
# Полезные ссылки для построения индекса
# Домашний индекс
**Цель:**
Построить векторный индекс хотя бы по 1 млн научных статей. В дальнейшем можно использовать для https://cloud.google.com/use-cases/retrieval-augmented-generation + строить суммаризацию поверх.
Построить векторный индекс хотя бы по 1 млн научных статей.
Дальнейшее развитие: https://cloud.google.com/use-cases/retrieval-augmented-generation + строить суммаризацию поверх.
**Задачи:**
- выбор надежного (?) pdf-парсера для сохранения информации
@ -10,6 +10,7 @@
- написание тестовых запросов
# Материалы
## Базы
- https://github.com/qdrant/qdrant

@ -1,14 +1,22 @@
# Интеллектуальный reader научных статей
**Цель:** собрать инструмент для обработки научных статей.
Работа в этом направлении: https://arxiv.org/abs/2210.02830
**Задачи**:
- обзор существующих инструментов для разбора pdf, способных работать на обычном
ноутбуке
- обзор существующих облачных инструментов для разбора pdf
- выбор или, вероятно, написание/дописание своего инструмента
- ui на tauri + ts
**Что будем использовать**
- ts + tauri
- python/go/rust
# Доп материалы
## Text embeddings
- https://qdrant.github.io/fastembed/
@ -27,6 +35,7 @@
- https://pypi.org/project/tabula-py/
- apach-tika
**AI парсилки**
Здесь пример zero-shot pdf extraction на основе gpt-mini: https://github.com/getomni-ai/zerox?tab=readme-ov-file внутри есть ссылки на другие платные альтернативы:
@ -38,7 +47,9 @@
Здесь evaluation разных Multimodal Large Language Models: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation
**На чем можно писать GUI**
- https://dioxuslabs.com/
- https://tauri.app
- flutter???
- какой-то ultra fast tauri + angular setup https://github.com/maximegris/angular-tauri
Loading…
Cancel
Save