Captura de diferentes fuentes

Captika permite capturar documentos desde múltiples canales, facilitando la integración con cualquier flujo de trabajo existente:

Escáneres físicos compatibles con TWAIN.
Thuban Software, capturando desde bandejas de trabajo, búsquedas de campos y StoreProcedures.
SharePoint mediante búsquedas ViewXML
Outook Office 365 mediante correos electrónicos en la nube.
File System local o de red, con procesamiento inteligente de carpetas, subcarpetas, control de archivos en uso y renombrado automático.
Servidores FTP/SFTP, ideal para automatizar entornos distribuidos.

Metadatos y validaciones

Captika permite definir y gestionar metadatos de forma completamente flexible:
- Tres niveles de campos: configurable por lote, por documento y por página.
- Listas desplegables inteligentes para selección rápida, generadas automáticamente desde:
  - Bases de datos externas, con consultas SQL dinámicas que pueden tomar valores desde otros campos.
  - Thuban Software, integrando directamente con ThubanExecSP o ThubanQueries mediante APIs nativas.
  - Microsoft SharePoint, mapeando campos de Captika con metadatos existentes en listas de SharePoint.
Además, podés validar campos y enriquecer datos automáticamente utilizando:
- Consultas SQL hacia tus bases corporativas.
- Thuban Software, revalidando contra datos en sistemas existentes.
- Scripting a medida, que permite lanzar llamadas a WebServices o APIs externas para validaciones cruzadas o enriquecimientos de información en tiempo real.

Captika incluye un potente motor de scripting basado en .NET 8, compatible con C# o Vb.Net , que permite personalizar cada evento del proceso. Esto brinda posibilidades de integración prácticamente ilimitadas

Captura de datos OCR con precisión profesional

Captika permite extraer información clave desde cualquier tipo de documento utilizando los motores de OCR más potentes del mercado:
- OCR nativo con Tesseract 5x: Captura espacial de cada palabra y línea en la página, evitando lecturas redundantes y permitiendo validaciones visuales en su interfaz gráfica.
- OCR en la nube con Amazon Textract: Reconocimiento de texto impreso (OCR) y manuscrito (ICR), lectura de:
  - Tablas (Textract Tables)
  - Formularios (Textract Forms)
  - Firmas (Textract Signatures)
  - Rostros (Textract Faces)
  - Etiquetas en imágenes (Textract Labels)
Además, Captika se integra con los otros dos grandes líderes del mercado:
- Microsoft Vision API
- Google Vision AI

Esto permite ejecutar lecturas OCR vía API con los tres motores de OCR más potentes del mundo, seleccionando el mejor según el tipo de documento.

Procesamiento de PDFs y códigos de barra

Captika procesa archivos PDF gracias a la combinación de:

PDFBox y PDFIUM, para importar documentos, separar páginas, detectar firmas, extraer capas de texto y renderizar imágenes para lecturas más complejas.
Lectura inteligente que detecta y aprovecha la capa de texto original del PDF, mejorando notablemente la velocidad de procesamiento y la calidad del texto extraído.

Además, permite capturar información a través de códigos de barra:

1D, 2D y PatchCodes, incluyendo:
CODE128, CODE25, CODE39, CODABAR, DATAMATRIX, PDF417, EAN13, QRCODE, PATCHCODES, entre otros.

Reconocimiento avanzado con templates dinámicos

Captika permite tanto el reconocimiento de documentos mediante templates pre-armados con reglas de extracción por cada campo. Esta flexibilidad le permite a Captika reconocer tanto documentos estructurados (Facturas, Formularios impositivos) como no-estructurados (Actas, Cartas, Balances).
Para el reconocimiento de documentos Captika permite:
- Reconocer documentos por códigos de barras
- Reconocer documentos por campos extraídos
- Por orden de página, tamaño, peso, formas (image Fingerprint)
- Por OCR extracción y ejecución de reglas
- Por similitud de texto. Esta característica permite subir una imagen de ejemplo, el sistema toma la capa de texto de la misma y se establece un nivel de similitud mínimo para reconocer futuros documentos.
- Bolsas de palabras. Permite el armado de diferentes bolsas de palabras para diferentes secciones de la capa de texto del documento, agilizando de manera significativa los tiempos consumidos en el armado de los template.
- Detección y limpieza de campos mediante reglas OCR y de limpieza de valores.
Dentro de las reglas de limpieza de campos Captika cuenta con:
- Reglas nativas de NLP (Natural Language Processing) que permiten la detección de fechas, correos, números escritos, números de CUIT\CUIL\RUT, máscaras de datos y otros conceptos pre-armados.
- Amazon Comprehend Detect Entities: Extraer entidades conceptuales (Nombres de personas, organizaciones, lugares, números, teléfonos, etc.)
- Amazon Comprehend Detect Key Phrases: Detectar frases claves
- Amazon Comprehend Sentiment: Analizar el sentimiento de un texto (para analizar correos de clientes o reclamos)
- Amazon Rekognition: Reconocer objetos dentro de una imagen (caras, autos, sillas)
- Amazon Comprehend Classification: permite clasificar un documento en base al texto capturado. Este reconocimiento se realiza en base a un aprendizaje de clasificaciones anteriores.
- OpenAI que permite la ejecución de preguntas (Prompts) sobre los textos extraidos. Esta integración permite mejorar la extracción y el reconocimiento de datos mediante el procesamiento del lenguaje natural, el reconocimiento óptico de caracteres, el aprendizaje automático y la integración con otros sistemas. Tambien automatiza y agiliza tareas que requieren la extracción de información de fuentes no estructuradas, mejorando la eficiencia y la precisión en diversos campos, como la gestión de documentos, la investigación y el análisis de datos.

Todas estas herramientas combinadas permiten a Captika de reconocer documentos estructurados y no estructurados de una forma ágil. Su interfaz gráfica permite agilizar significativamente el proceso de reconocer automáticamente los documentos y extraer los datos claves. La integración con Amazon AWS permite a nuestros clientes incursionar en modelos ML (Amazon Comprehend Classification) para ir aprendiendo y mejorando sus circuitos de captura de datos.

Publicación de datos

Publicación de datos en formato PDF o TIF multipágina de documentos. Los PDFs pueden generarse con capa de texto generada al momento de la captura. El sistema brinda un análisis previo de PDFs que contengan firmas para evitar su escritura o modificación.
Permite la publicación simultánea en diferentes destinos de información:
- Publicación en FileSystem. Permite la publicación de los documentos reconocidos en directorios de FileSystem permitiendo configurar tanto el nombre de cada archivo como generar opcionalmente archivos de texto parametrizables con datos adicionales para uno de ellos. . Permite generar estructuras de carpetas utilizando los campos reconocidos
- Publicación en SQL. Permite la publicación en bases de datos de los datos colectados e interpretados para su posterior utilización
- Publicación en sFTP/FP. Permite la publicación en servidores FTP/SFTP de forma segura, permitiendo configurar tanto el nombre de cada archivo como generar opcionalmente archivos de texto parametrizables con datos adicionales para uno de ellos.
- Publicación en Portal Thuban. Permite configurar la publicación de documentos en Thuban, configurando los campos que serán publicados y permitiendo tanto la incorporación de documentos nuevos como la actualización de documentos existentes.
- Publicación en Sharepoint. Permite la publicación de documentos en Sharepoint, los campos de Captika que coincidan con los de Sharepoint serán actualizados
- Publicación en AmazonS3. Permite la publicación de documentos Amazon S3, seleccionado el bucket S3 al que se desea publicar y el nombre de archivo.

Reconocimiento Inteligente

Captika permite configurar templates de reconocimiento con reglas de extracción específicas para cada tipo de documento, lo que lo hace ideal para procesar tanto:

Documentos estructurados (facturas, formularios impositivos, pagarés).
Documentos no estructurados (actas, balances, cartas, contratos).

Los documentos pueden ser identificados por múltiples criterios, incluyendo:

Códigos de barras
Campos extraídos
Orden de página, tamaño, peso, forma (image fingerprint)
Similitud textual con documentos de referencia
OCR + reglas de extracción
Bolsas de palabras configurables por sección del documento

Una vez detectados correctamente pueden configurarse reglas de extracción y limpieza de campos:

Reglas nativas de NLP (Natural Language Processing) que permiten la detección de fechas, correos, números escritos, números de CUIT\CUIL\RUT, máscaras de datos y otros conceptos pre-armados.
Integración con API de ML de Amazon Comprehend:
- Detect Entities: Extraer entidades conceptuales (Nombres de personas, organizaciones, lugares, números, teléfonos, etc.)
- Detect Key Phrases: Detectar frases claves
- Sentiment: Analizar el sentimiento de un texto (para analizar correos de clientes o reclamos)
- Rekognition: Reconocer objetos dentro de una imagen (caras, autos, sillas)
- Classification: permite clasificar un documento en base al texto capturado. Este reconocimiento se realiza en base a un aprendizaje de clasificaciones anteriores.
Integración con API de OpenAI:
- Posibilidad de lanzar "prompts inteligentes" directamente sobre los textos extraídos.
- Ideal para automatizar tareas complejas como análisis semántico, extracción de información no estructurada o interpretación contextual de contenido.

Publicación de datos

Captika permite publicar documentos y metadatos estructurados en paralelo hacia distintos entornos, con configuración personalizada para cada uno:

📁 Publicación directa en carpetas locales o de red.

o Nombres de archivo completamente configurables.

o Posibilidad de generar archivos de texto parametrizables con información adicional.

o Estructura de carpetas dinámica basada en los datos extraídos.

🗃️Bases de Datos (SQL)

o Publicación automatizada de todos los datos capturados para su explotación en sistemas analíticos, de gestión o back-office.

🔒 Servidores FTP / SFTP

o Transferencia segura de documentos y datos. Configuración flexible de nombres de archivos y metadatos exportados.

🌐 Portal Thuban

o Publicación e indexación directa en el sistema documental Thuban.

o Permite tanto la carga de nuevos documentos como la actualización de registros existentes.

🧩 Microsoft SharePoint

o Integración nativa que mapea los campos de Captika con metadatos configurados en listas de SharePoint.

☁️ Amazon S3

o Publicación en la nube utilizando buckets de Amazon S3.

🖥️ Captika Desktop & ⚙️ Captika Service

Dos modalidades para una solución completa y escalable de Gestión Documental Empresarial

Captika ofrece dos modalidades de operación que se complementan para brindar una solución integral y adaptable a distintos escenarios operativos:

🖥️ Captika Desktop – Interfaz de captura asistida para usuarios finales

Captika Desktop está pensado para operadores humanos que necesitan interactuar con los documentos de forma visual, intuitiva y validada. Esta modalidad es ideal para centros de digitalización, áreas administrativas, y captura distribuida en sucursales.

Funcionalidades clave:

Captura de documentos desde escáneres TWAIN, permitiendo escaneo en tiempo real.
Visualización y validación de imágenes en pantalla.
Corrección manual de datos extraídos por OCR, campos indexados y metadatos.
Integración con sistemas externos (Thuban, SQL, SharePoint) para validar datos ingresados.
Control de calidad visual de imágenes: detección de páginas en blanco, rotación, resolución.
Asignación y edición de campos por documento o por página.
Interfaz multiusuario con perfiles configurables y trazabilidad completa de cada acción realizada.

Escenarios de uso:

Sucursales bancarias que digitalizan pagarés o contratos.
Áreas de recepción documental que hacen validación visual de formularios.
Oficinas descentralizadas que necesitan capturar documentos sin depender del entorno server.

⚙️ Captika Service – Automatización desatendida y procesamiento masivo

Captika Service es un servicio de sistema (Windows Service) que permite ejecutar procesos de captura, reconocimiento, validación y publicación de forma 100% automática y sin intervención humana.

Es ideal para organizaciones que necesitan procesar grandes volúmenes de documentos de manera continua, como sectores de archivo central, operaciones, legales o áreas de back-office.

Funcionalidades clave:

Procesamiento multithread: ejecución simultánea de múltiples trabajos, optimizando el uso del hardware.
Captura desde múltiples fuentes automáticas:
- Carpetas locales o de red (FileSystem / HotFolders).
- Repositorios Thuban (vía consultas o bandejas de trabajo).
- Cuentas de correo electrónico corporativas (Microsoft 365).
Programación de tareas: Captika Service permite definir una agenda de ejecución, controlando qué trabajos se ejecutan y cuándo.
Manejo de errores y trazabilidad:
- Redirección automática de documentos fallidos a carpetas de revisión manual.
- Registro completo de eventos y errores en archivos de log para auditoría.
Publicación automática en múltiples destinos:
- Bases de datos (SQL)
- SharePoint
- FTP/SFTP
- Amazon S3
- Portal Thuban
- Carpetas estructuradas en FileSystem

🧩 Características enterprise comunes a ambas modalidades

Captika, tanto en su modalidad Desktop como Service, incluye funcionalidades clave para una implementación empresarial robusta:

Característica	Captika Desktop	Captika Service

Característica	Captika Desktop	Captika Service
OCR/ICR Integrado (Tesseract, Textract)	✅	✅
Motor de scripting C# / .NET 8	✅	✅
Validaciones externas (DB/API)	✅	✅
Logs de auditoría detallados	✅	✅
Manejo de perfiles de usuario y roles	✅	✅
Actualización automática de templates	✅	✅
Escalabilidad horizontal (multiinstancia)	❌	✅
Ejecución 24/7 sin intervención humana	❌	✅
Interfaces visuales para revisión	✅	❌

🏢 ¿Cuál modalidad es ideal para tu empresa?

Usá Captika Desktop si necesitás:
- Validación humana.
- Corrección de datos en tiempo real.
- Interfaz visual amigable para usuarios no técnicos.
Usá Captika Service si buscás:
- Procesamiento automatizado y continuo.
- Escalabilidad masiva.
- Integración desatendida con múltiples fuentes y destinos.

Ambas modalidades pueden ser implementadas en paralelo, generando una solución híbrida, donde las tareas manuales y automáticas se complementan estratégicamente.

Características/Features

Captura de diferentes fuentes

Metadatos y validaciones

Captura de datos OCR con precisión profesional

Procesamiento de PDFs y códigos de barra

Reconocimiento avanzado con templates dinámicos

Publicación de datos

Reconocimiento Inteligente

Publicación de datos

🖥️ Captika Desktop & ⚙️ Captika Service

Dos modalidades para una solución completa y escalable de Gestión Documental Empresarial

🖥️ Captika Desktop – Interfaz de captura asistida para usuarios finales

Funcionalidades clave:

Escenarios de uso:

⚙️ Captika Service – Automatización desatendida y procesamiento masivo

Funcionalidades clave:

🧩 Características enterprise comunes a ambas modalidades

🏢 ¿Cuál modalidad es ideal para tu empresa?