From c1826e21a4382d64761c44e42bf3590992e830b3 Mon Sep 17 00:00:00 2001
From: Aleksey Zubakov <zubakov-av@zvuk.com>
Date: Thu, 10 Oct 2024 21:01:09 +0300
Subject: [PATCH] init commit

---
 Readme.md                |  5 ++++
 Граф статей.md | 23 +++++++++++++++++
 Индекс.md          | 53 ++++++++++++++++++++++++++++++++++++++++
 Читалка.md        | 44 +++++++++++++++++++++++++++++++++
 4 files changed, 125 insertions(+)
 create mode 100644 Readme.md
 create mode 100644 Граф статей.md
 create mode 100644 Индекс.md
 create mode 100644 Читалка.md

diff --git a/Readme.md b/Readme.md
new file mode 100644
index 0000000..37bb782
--- /dev/null
+++ b/Readme.md
@@ -0,0 +1,5 @@
+## Проекты
+
+- [Домашний индекс научных статей](./Индекс.md)
+- [Интеллектуальный reader для научных статей](./Читалка.md)
+- [Граф цитирования](./Граф статей.md)
diff --git a/Граф статей.md b/Граф статей.md
new file mode 100644
index 0000000..bb6f92c
--- /dev/null
+++ b/Граф статей.md	
@@ -0,0 +1,23 @@
+Альтернативы, которые уже есть:
+
+**Цель:**
+
+По существующей открытой базе  https://www.crossref.org/ собрать web-инструмент визуализации ссылок между статьями.
+
+**Задачи:**
+- обработка базы crossref, выгрузка в базу для дальнейшего осуществления поиска
+- написание backend на go для 
+- ui (огромный простор для фантазии/экспериментов)
+
+
+**Аналоги:**
+- https://www.microsoft.com/en-us/research/project/microsoft-academic-graph/
+- https://www.litmaps.com/attributions
+- https://www.connectedpapers.com/about
+- https://openalex.org/
+
+**Что будем использовать:**
+PostgreSQL + Go (gin, bun) + TS (angular) 
+
+
+
diff --git a/Индекс.md b/Индекс.md
new file mode 100644
index 0000000..8d8170d
--- /dev/null
+++ b/Индекс.md
@@ -0,0 +1,53 @@
+# Полезные ссылки для построения индекса
+
+
+**Цель:**
+Построить векторный индекс хотя бы по 1 млн научных статей. В дальнейшем можно использовать для https://cloud.google.com/use-cases/retrieval-augmented-generation + строить суммаризацию поверх.
+
+**Задачи:**
+- выбор надежного (?) pdf-парсера для сохранения информации 
+- выбор векторной базы + загрузка содержимого pdf в них
+- написание тестовых запросов
+
+# Материалы
+## Базы
+
+- https://github.com/qdrant/qdrant
+- https://github.com/crate/crate
+- https://github.com/weaviate/weaviate
+- https://github.com/chroma-core/chroma 
+- https://github.com/milvus-io/milvus
+- elastic search
+
+## Библиотеки для парсинга
+
+- https://github.com/Filimoa/open-parse/tree/main
+- https://github.com/jsvine/pdfplumber
+- https://github.com/topics/pdf-parser
+- https://github.com/py-pdf/pypdf
+- https://github.com/smalot/pdfparser
+- https://github.com/jstockwin/py-pdf-parser
+- https://github.com/RDFLib/rdflib
+- https://pypi.org/project/camelot-py/
+- https://pypi.org/project/tabula-py/
+- apach-tika
+
+**AI парсилки**
+
+Здесь пример zero-shot pdf extraction на основе gpt-mini: https://github.com/getomni-ai/zerox?tab=readme-ov-file внутри есть ссылки на другие платные альтернативы:
+	- https://aws.amazon.com/textract/pricing/#:~:text=Amazon%20Textract%20API%20pricing
+	- https://cloud.google.com/document-ai/pricing
+	- https://azure.microsoft.com/en-us/pricing/details/ai-document-intelligence/
+	- https://unstructured.io/api-key-hosted#:~:text=Cost%20and%20Usage%20%0AGuidelines
+
+Здесь evaluation разных Multimodal Large Language Models: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation
+## Суммаризация
+
+### LLM
+
+Фреймворк для сборки приложений на основе LLM: https://github.com/langchain-ai/langchain?tab=readme-ov-file
+
+### Text embeddings
+
+- https://qdrant.github.io/fastembed/
+- https://github.com/qdrant/qdrant
\ No newline at end of file
diff --git a/Читалка.md b/Читалка.md
new file mode 100644
index 0000000..9d1a77b
--- /dev/null
+++ b/Читалка.md
@@ -0,0 +1,44 @@
+
+**Цель:** собрать инструмент для обработки научных статей.
+Работа в этом направлении: https://arxiv.org/abs/2210.02830
+
+**Задачи**:
+
+
+**Что будем использовать**
+
+
+# Доп материалы
+## Text embeddings
+
+- https://qdrant.github.io/fastembed/
+- https://github.com/qdrant/qdrant
+
+## Библиотеки для парсинга
+
+- https://github.com/Filimoa/open-parse/tree/main
+- https://github.com/jsvine/pdfplumber
+- https://github.com/topics/pdf-parser
+- https://github.com/py-pdf/pypdf
+- https://github.com/smalot/pdfparser
+- https://github.com/jstockwin/py-pdf-parser
+- https://github.com/RDFLib/rdflib
+- https://pypi.org/project/camelot-py/
+- https://pypi.org/project/tabula-py/
+- apach-tika
+
+**AI парсилки**
+
+Здесь пример zero-shot pdf extraction на основе gpt-mini: https://github.com/getomni-ai/zerox?tab=readme-ov-file внутри есть ссылки на другие платные альтернативы:
+	- https://aws.amazon.com/textract/pricing/#:~:text=Amazon%20Textract%20API%20pricing
+	- https://cloud.google.com/document-ai/pricing
+	- https://azure.microsoft.com/en-us/pricing/details/ai-document-intelligence/
+	- https://unstructured.io/api-key-hosted#:~:text=Cost%20and%20Usage%20%0AGuidelines
+
+Здесь evaluation разных Multimodal Large Language Models: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation
+
+**На чем можно писать GUI**
+- https://dioxuslabs.com/
+- https://tauri.app
+
+- какой-то ultra fast tauri + angular setup https://github.com/maximegris/angular-tauri
\ No newline at end of file