diff --git a/Граф_цитирования.md b/Граф_цитирования.md index 990a60e..56321cc 100644 --- a/Граф_цитирования.md +++ b/Граф_цитирования.md @@ -1,14 +1,13 @@ -## Описание - -Альтернативы, которые уже есть: +## Граф цитирования **Цель:** По существующей открытой базе https://www.crossref.org/ собрать web-инструмент визуализации ссылок между статьями. **Задачи:** -- обработка базы crossref, выгрузка в базу для дальнейшего осуществления поиска -- написание backend на go для +- обработка открытой базы crossref, выгрузка в базу для дальнейшего осуществления поиска +- написание backend на go +- написание запросов к БД с индексом - ui (огромный простор для фантазии/экспериментов) **Что будем использовать:** diff --git a/Индекс.md b/Индекс.md index 8d8170d..b11a08d 100644 --- a/Индекс.md +++ b/Индекс.md @@ -1,8 +1,8 @@ -# Полезные ссылки для построения индекса - +# Домашний индекс **Цель:** -Построить векторный индекс хотя бы по 1 млн научных статей. В дальнейшем можно использовать для https://cloud.google.com/use-cases/retrieval-augmented-generation + строить суммаризацию поверх. +Построить векторный индекс хотя бы по 1 млн научных статей. +Дальнейшее развитие: https://cloud.google.com/use-cases/retrieval-augmented-generation + строить суммаризацию поверх. **Задачи:** - выбор надежного (?) pdf-парсера для сохранения информации @@ -10,6 +10,7 @@ - написание тестовых запросов # Материалы + ## Базы - https://github.com/qdrant/qdrant @@ -50,4 +51,4 @@ ### Text embeddings - https://qdrant.github.io/fastembed/ -- https://github.com/qdrant/qdrant \ No newline at end of file +- https://github.com/qdrant/qdrant diff --git a/Читалка.md b/Читалка.md index 9d1a77b..9cb92a9 100644 --- a/Читалка.md +++ b/Читалка.md @@ -1,14 +1,22 @@ +# Интеллектуальный reader научных статей **Цель:** собрать инструмент для обработки научных статей. Работа в этом направлении: https://arxiv.org/abs/2210.02830 **Задачи**: +- обзор существующих инструментов для разбора pdf, способных работать на обычном +ноутбуке +- обзор существующих облачных инструментов для разбора pdf +- выбор или, вероятно, написание/дописание своего инструмента +- ui на tauri + ts **Что будем использовать** - +- ts + tauri +- python/go/rust # Доп материалы + ## Text embeddings - https://qdrant.github.io/fastembed/ @@ -27,6 +35,7 @@ - https://pypi.org/project/tabula-py/ - apach-tika + **AI парсилки** Здесь пример zero-shot pdf extraction на основе gpt-mini: https://github.com/getomni-ai/zerox?tab=readme-ov-file внутри есть ссылки на другие платные альтернативы: @@ -38,7 +47,9 @@ Здесь evaluation разных Multimodal Large Language Models: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation **На чем можно писать GUI** + - https://dioxuslabs.com/ - https://tauri.app +- flutter??? -- какой-то ultra fast tauri + angular setup https://github.com/maximegris/angular-tauri \ No newline at end of file +- какой-то ultra fast tauri + angular setup https://github.com/maximegris/angular-tauri