commit
e8fec0d5be
@ -0,0 +1,5 @@ |
||||
## Проекты |
||||
|
||||
- [Домашний индекс научных статей](./Индекс.md) |
||||
- [Интеллектуальный reader для научных статей](./Читалка.md) |
||||
- [Граф цитирования](./Граф\ статей.md) |
@ -0,0 +1,23 @@ |
||||
Альтернативы, которые уже есть: |
||||
|
||||
**Цель:** |
||||
|
||||
По существующей открытой базе https://www.crossref.org/ собрать web-инструмент визуализации ссылок между статьями. |
||||
|
||||
**Задачи:** |
||||
- обработка базы crossref, выгрузка в базу для дальнейшего осуществления поиска |
||||
- написание backend на go для |
||||
- ui (огромный простор для фантазии/экспериментов) |
||||
|
||||
|
||||
**Аналоги:** |
||||
- https://www.microsoft.com/en-us/research/project/microsoft-academic-graph/ |
||||
- https://www.litmaps.com/attributions |
||||
- https://www.connectedpapers.com/about |
||||
- https://openalex.org/ |
||||
|
||||
**Что будем использовать:** |
||||
PostgreSQL + Go (gin, bun) + TS (angular) |
||||
|
||||
|
||||
|
@ -0,0 +1,53 @@ |
||||
# Полезные ссылки для построения индекса |
||||
|
||||
|
||||
**Цель:** |
||||
Построить векторный индекс хотя бы по 1 млн научных статей. В дальнейшем можно использовать для https://cloud.google.com/use-cases/retrieval-augmented-generation + строить суммаризацию поверх. |
||||
|
||||
**Задачи:** |
||||
- выбор надежного (?) pdf-парсера для сохранения информации |
||||
- выбор векторной базы + загрузка содержимого pdf в них |
||||
- написание тестовых запросов |
||||
|
||||
# Материалы |
||||
## Базы |
||||
|
||||
- https://github.com/qdrant/qdrant |
||||
- https://github.com/crate/crate |
||||
- https://github.com/weaviate/weaviate |
||||
- https://github.com/chroma-core/chroma |
||||
- https://github.com/milvus-io/milvus |
||||
- elastic search |
||||
|
||||
## Библиотеки для парсинга |
||||
|
||||
- https://github.com/Filimoa/open-parse/tree/main |
||||
- https://github.com/jsvine/pdfplumber |
||||
- https://github.com/topics/pdf-parser |
||||
- https://github.com/py-pdf/pypdf |
||||
- https://github.com/smalot/pdfparser |
||||
- https://github.com/jstockwin/py-pdf-parser |
||||
- https://github.com/RDFLib/rdflib |
||||
- https://pypi.org/project/camelot-py/ |
||||
- https://pypi.org/project/tabula-py/ |
||||
- apach-tika |
||||
|
||||
**AI парсилки** |
||||
|
||||
Здесь пример zero-shot pdf extraction на основе gpt-mini: https://github.com/getomni-ai/zerox?tab=readme-ov-file внутри есть ссылки на другие платные альтернативы: |
||||
- https://aws.amazon.com/textract/pricing/#:~:text=Amazon%20Textract%20API%20pricing |
||||
- https://cloud.google.com/document-ai/pricing |
||||
- https://azure.microsoft.com/en-us/pricing/details/ai-document-intelligence/ |
||||
- https://unstructured.io/api-key-hosted#:~:text=Cost%20and%20Usage%20%0AGuidelines |
||||
|
||||
Здесь evaluation разных Multimodal Large Language Models: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation |
||||
## Суммаризация |
||||
|
||||
### LLM |
||||
|
||||
Фреймворк для сборки приложений на основе LLM: https://github.com/langchain-ai/langchain?tab=readme-ov-file |
||||
|
||||
### Text embeddings |
||||
|
||||
- https://qdrant.github.io/fastembed/ |
||||
- https://github.com/qdrant/qdrant |
@ -0,0 +1,44 @@ |
||||
|
||||
**Цель:** собрать инструмент для обработки научных статей. |
||||
Работа в этом направлении: https://arxiv.org/abs/2210.02830 |
||||
|
||||
**Задачи**: |
||||
|
||||
|
||||
**Что будем использовать** |
||||
|
||||
|
||||
# Доп материалы |
||||
## Text embeddings |
||||
|
||||
- https://qdrant.github.io/fastembed/ |
||||
- https://github.com/qdrant/qdrant |
||||
|
||||
## Библиотеки для парсинга |
||||
|
||||
- https://github.com/Filimoa/open-parse/tree/main |
||||
- https://github.com/jsvine/pdfplumber |
||||
- https://github.com/topics/pdf-parser |
||||
- https://github.com/py-pdf/pypdf |
||||
- https://github.com/smalot/pdfparser |
||||
- https://github.com/jstockwin/py-pdf-parser |
||||
- https://github.com/RDFLib/rdflib |
||||
- https://pypi.org/project/camelot-py/ |
||||
- https://pypi.org/project/tabula-py/ |
||||
- apach-tika |
||||
|
||||
**AI парсилки** |
||||
|
||||
Здесь пример zero-shot pdf extraction на основе gpt-mini: https://github.com/getomni-ai/zerox?tab=readme-ov-file внутри есть ссылки на другие платные альтернативы: |
||||
- https://aws.amazon.com/textract/pricing/#:~:text=Amazon%20Textract%20API%20pricing |
||||
- https://cloud.google.com/document-ai/pricing |
||||
- https://azure.microsoft.com/en-us/pricing/details/ai-document-intelligence/ |
||||
- https://unstructured.io/api-key-hosted#:~:text=Cost%20and%20Usage%20%0AGuidelines |
||||
|
||||
Здесь evaluation разных Multimodal Large Language Models: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation |
||||
|
||||
**На чем можно писать GUI** |
||||
- https://dioxuslabs.com/ |
||||
- https://tauri.app |
||||
|
||||
- какой-то ultra fast tauri + angular setup https://github.com/maximegris/angular-tauri |
Loading…
Reference in new issue