ispras / dedoc
Dedoc is a library (service) for automate documents parsing and bringing to a uniform format. It automatically extracts content, logical structure, tables, and meta information from textual electronic documents. (Parse document; Document content extraction; Logical structure extraction; PDF parser; Scanned document parser; DOCX parser; HTML pars…
☆182Updated this week
Related projects ⓘ
Alternatives and complementary repositories for dedoc
- The tiniest sentence encoder for Russian language☆189Updated 3 months ago
- "Руформеры" - список популярных базовых моделей на осн ове трансформеров для решения задач по автоматической обработке русского языка☆36Updated last year
- SAGE: Spelling correction, corruption and evaluation for multiple languages☆132Updated 2 months ago
- MERA (Multimodal Evaluation for Russian-language Architectures) is a new open benchmark for the Russian language for evaluating fundament…☆58Updated last month
- Бенчмарк сравнивает русские аналоги ChatGPT: Saiga, YandexGPT, Gigachat☆57Updated last year
- ☆53Updated last month
- LangChain-compatible integrations with YandexGPT and YandexGPT Embeddings☆35Updated 3 weeks ago
- Effective LLM Alignment Toolkit☆87Updated 3 weeks ago
- Jupyter Notebooks and other files from my video tutorial series about GigaChat API☆37Updated last month
- Сжатие и ускорение моделей машинного обучения☆15Updated last year
- ☆36Updated this week
- Modified Arena-Hard-Auto LLM evaluation toolkit with an emphasis on Russian language☆24Updated 3 weeks ago
- Bunch of notebooks for pre-training custom Saiga-like LLM☆13Updated 9 months ago
- Handwritten Text Generation☆16Updated 2 years ago
- Код для файнтюна LM (rugpt, LLaMa, FRED T5) средствами transformers + deepspeed + LoRa☆14Updated last year
- Простой нормализатор текстов перед синтезом речи☆20Updated 6 months ago
- Библиотека для доступа к GigaChat☆61Updated last week
- комплексное руководство по машинному обучению (ML) и обработке естественного языка (NLP). Этот проект предназначен для студентов техничес…☆23Updated 2 months ago
- Telegram bot for different language models. Supports system prompts and images☆39Updated 3 weeks ago
- ☆16Updated last week
- ☆42Updated last year
- Augmentex — a library for augmenting texts with errors☆52Updated 4 months ago
- best llms in russian☆39Updated 5 months ago
- A Python wrapper for the RuWordNet thesaurus☆57Updated 4 months ago
- ExplainitAll — это библиотека для интерпретируемого ИИ, предназначенная для интерпретации генеративных моделей ( GPT-like), и векторизато…☆16Updated last month
- Умный ассистент в формате Telegram-бота☆9Updated 7 months ago
- ⚡ Набор решений для разработ ки LLM-приложений на русском языке с поддержкой GigaChat ⚡☆327Updated last week
- Gazeta: Dataset for automatic summarization of Russian news / Газета: набор данных для автоматического реферирования на русском языке☆32Updated 3 years ago
- Graph-based Layout Analysis Model☆14Updated last month