From e8fec0d5be9e39d284ddaba8647b04a512efae8f Mon Sep 17 00:00:00 2001 From: Aleksey Zubakov Date: Thu, 10 Oct 2024 21:01:09 +0300 Subject: [PATCH] init commit --- Readme.md | 5 ++++ Граф статей.md | 23 +++++++++++++++++ Индекс.md | 53 ++++++++++++++++++++++++++++++++++++++++ Читалка.md | 44 +++++++++++++++++++++++++++++++++ 4 files changed, 125 insertions(+) create mode 100644 Readme.md create mode 100644 Граф статей.md create mode 100644 Индекс.md create mode 100644 Читалка.md diff --git a/Readme.md b/Readme.md new file mode 100644 index 0000000..32db931 --- /dev/null +++ b/Readme.md @@ -0,0 +1,5 @@ +## Проекты + +- [Домашний индекс научных статей](./Индекс.md) +- [Интеллектуальный reader для научных статей](./Читалка.md) +- [Граф цитирования](./Граф\ статей.md) diff --git a/Граф статей.md b/Граф статей.md new file mode 100644 index 0000000..bb6f92c --- /dev/null +++ b/Граф статей.md @@ -0,0 +1,23 @@ +Альтернативы, которые уже есть: + +**Цель:** + +По существующей открытой базе https://www.crossref.org/ собрать web-инструмент визуализации ссылок между статьями. + +**Задачи:** +- обработка базы crossref, выгрузка в базу для дальнейшего осуществления поиска +- написание backend на go для +- ui (огромный простор для фантазии/экспериментов) + + +**Аналоги:** +- https://www.microsoft.com/en-us/research/project/microsoft-academic-graph/ +- https://www.litmaps.com/attributions +- https://www.connectedpapers.com/about +- https://openalex.org/ + +**Что будем использовать:** +PostgreSQL + Go (gin, bun) + TS (angular) + + + diff --git a/Индекс.md b/Индекс.md new file mode 100644 index 0000000..8d8170d --- /dev/null +++ b/Индекс.md @@ -0,0 +1,53 @@ +# Полезные ссылки для построения индекса + + +**Цель:** +Построить векторный индекс хотя бы по 1 млн научных статей. В дальнейшем можно использовать для https://cloud.google.com/use-cases/retrieval-augmented-generation + строить суммаризацию поверх. + +**Задачи:** +- выбор надежного (?) pdf-парсера для сохранения информации +- выбор векторной базы + загрузка содержимого pdf в них +- написание тестовых запросов + +# Материалы +## Базы + +- https://github.com/qdrant/qdrant +- https://github.com/crate/crate +- https://github.com/weaviate/weaviate +- https://github.com/chroma-core/chroma +- https://github.com/milvus-io/milvus +- elastic search + +## Библиотеки для парсинга + +- https://github.com/Filimoa/open-parse/tree/main +- https://github.com/jsvine/pdfplumber +- https://github.com/topics/pdf-parser +- https://github.com/py-pdf/pypdf +- https://github.com/smalot/pdfparser +- https://github.com/jstockwin/py-pdf-parser +- https://github.com/RDFLib/rdflib +- https://pypi.org/project/camelot-py/ +- https://pypi.org/project/tabula-py/ +- apach-tika + +**AI парсилки** + +Здесь пример zero-shot pdf extraction на основе gpt-mini: https://github.com/getomni-ai/zerox?tab=readme-ov-file внутри есть ссылки на другие платные альтернативы: + - https://aws.amazon.com/textract/pricing/#:~:text=Amazon%20Textract%20API%20pricing + - https://cloud.google.com/document-ai/pricing + - https://azure.microsoft.com/en-us/pricing/details/ai-document-intelligence/ + - https://unstructured.io/api-key-hosted#:~:text=Cost%20and%20Usage%20%0AGuidelines + +Здесь evaluation разных Multimodal Large Language Models: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation +## Суммаризация + +### LLM + +Фреймворк для сборки приложений на основе LLM: https://github.com/langchain-ai/langchain?tab=readme-ov-file + +### Text embeddings + +- https://qdrant.github.io/fastembed/ +- https://github.com/qdrant/qdrant \ No newline at end of file diff --git a/Читалка.md b/Читалка.md new file mode 100644 index 0000000..9d1a77b --- /dev/null +++ b/Читалка.md @@ -0,0 +1,44 @@ + +**Цель:** собрать инструмент для обработки научных статей. +Работа в этом направлении: https://arxiv.org/abs/2210.02830 + +**Задачи**: + + +**Что будем использовать** + + +# Доп материалы +## Text embeddings + +- https://qdrant.github.io/fastembed/ +- https://github.com/qdrant/qdrant + +## Библиотеки для парсинга + +- https://github.com/Filimoa/open-parse/tree/main +- https://github.com/jsvine/pdfplumber +- https://github.com/topics/pdf-parser +- https://github.com/py-pdf/pypdf +- https://github.com/smalot/pdfparser +- https://github.com/jstockwin/py-pdf-parser +- https://github.com/RDFLib/rdflib +- https://pypi.org/project/camelot-py/ +- https://pypi.org/project/tabula-py/ +- apach-tika + +**AI парсилки** + +Здесь пример zero-shot pdf extraction на основе gpt-mini: https://github.com/getomni-ai/zerox?tab=readme-ov-file внутри есть ссылки на другие платные альтернативы: + - https://aws.amazon.com/textract/pricing/#:~:text=Amazon%20Textract%20API%20pricing + - https://cloud.google.com/document-ai/pricing + - https://azure.microsoft.com/en-us/pricing/details/ai-document-intelligence/ + - https://unstructured.io/api-key-hosted#:~:text=Cost%20and%20Usage%20%0AGuidelines + +Здесь evaluation разных Multimodal Large Language Models: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation + +**На чем можно писать GUI** +- https://dioxuslabs.com/ +- https://tauri.app + +- какой-то ultra fast tauri + angular setup https://github.com/maximegris/angular-tauri \ No newline at end of file