/
Reglas de limpieza

Reglas de limpieza

 

 

Es posible configurar una lista de pautas que hagan una limpieza del resultado reconocido. Por ejemplo, si el resultado del OCR es "Factura: 805523", podría configurarse una regla para que se almacene solamente con el número de factura en el campo:

Valor reconocido

Regla

Resultado

Valor reconocido

Regla

Resultado

Factura: 805523

ConservarDesde(Factura:)

805523

Las reglas se van ejecutando en el orden en el que figuran en la Lista de Reglas de Limpieza de OCR, si queremos cambiar el orden el sistema brinda flechas que nos permiten subir/bajar la reglas seleccionada en la lista.

Para generar una regla nueva y agregarla a la lista, seleccione una regla del combo desplegable y reemplace por los argumentos que se indican entre el paréntesis por los valores deseados, Texto, Numero, Caracteres, TextoObjetivo, TasaExactitud, etc. Luego, presione el botón + para agregarla a la lista.

El siguiente cuadro muestra todas las posibilidades de configuración disponibles:

 

Reglas disponibles

Funcionalidad

Configuración y ejemplos

Texto leído: Factora: 805523

Reglas disponibles

Funcionalidad

Configuración y ejemplos

Texto leído: Factora: 805523

Capitalizar

Capitaliza todo el texto reconocido

Ejemplo: Capitalizar

Resultado: FACTURA: 805523

Conservar (Caracteres)

Conserva solamente los caracteres indicados

Ejemplo: Conservar (80523)

Resultado: 805523

ConservarAlfanumericos

Conserva caracteres alfanumericos A/Z y del 0/9

Ejemplo: ConservarAlfanumericos

Resultado: FACTURA 805523

ConservarNumeros

Conserva solamente los números

Ejemplo: ConservarNumeros

Resultado: 805523

ConservarTexto

Conserva solamente los caracteres de texto

Ejemplo: ConservarTexto

Resultado: Factura:

ConservarTextoEntre (ListaDeTextoDesde,ListaDeTextoHasta,sBoundaries,sSelectionCriteria,sFilter,sFilterParam)

Conserva el texto entre dos cadenas de texto

Los parámetros son los siguientes:

ListaDeTextoDesde

texto simple o listado de valores de texto. En el caso de querer usar una lista de valores posibles estos deben estar separados por pipes. En caso de caracteres especiales debe utilizarse nomenclatura RegEx

 

ListaDeTextoHasta

texto simple o listado de valores de texto. En el caso de querer usar una lista de valores posibles estos deben estar separados por pipes. En caso de caracteres especiales . En caso de caracteres especiales debe utilizarse nomenclatura RegEx

 

Boundaries

0- Las palabras limites no son incluidas en los resultados
1 - La palabras desde son incluidas en los resultados
2- La palabra(s) hasta son incluidas en los resultados
3 -Tanto las palabras desde y hasta son incluidas en los resultados

 

sSelectionCriteria

Criterio de selección de resultados, en caso contar con múltiples candidatos cual debe quedar como resultado, las opciones son:

  • Detail Detalle de las fechas encontradas

  • All todas las fechas encontradas

  • AllSolved todas las fechas resueltas

  • First Primer fecha encontrada DEFECTO

  • MostRepeated fecha mas repetida

  • Max valor máximo alfanumerico

  • Min valor mínimo alfanumerico

  • TxtLarger línea de texto más corta

  • TxtShorter línea de texto más larga

sFilter

Unsolved filtrar cadenas de texto de fechas no resueltas
RegEx filtrar por máscara RegEx
In filtrar valores de la lista
NotIn filtrar valores que no están en la lista

 

sFilterParam

Parametro relacionado al Filtro

Ejemplos:

ConservarTextoEntre (Factura:,\n) (Conservar texto entre la palabra factura y el entero o salto de línea en formato Regex Resultado: 805523

ConservarTextoEntre ((Factura:!Comprobante!:),\n) (Conservar texto que se encuentre entre las palabras Factora:, Comprobantes y los dos puntos y el salto de línea) Resultado: 805523

ConservarTextoEntre ((Factura:!Comprobante!:),(\n),MostRepeated (Conservar texto mas repetido que se encuentre entre las palabras Factora:, Comprobantes y los dos puntos y el salto de línea) Resultado: 805523

ConservarDesde(Texto)

Conserva de la cadena de texto que siga después de una ocurrencia del texto de referencia indicado en el parámetro Texto

Ejemplo: ConservarDesde(Factura:)

Resultado: 805523

ConservarDesdeIncluyendo (Texto)

Conserva de la cadena de texto que siga después de una ocurrencia del texto de referencia indicado en el parámetro Texto, incluyendo la palabra indicada en el parámetro.

Ejemplo: ConservarDesdeIncluyendo(8)

Resultado: 805523

ConservarDesdeUltimo (Texto)

Conserva de la cadena de texto que siga después de la ultima ocurrencia de Texto

Ejemplo: ConservarDesdeUltimo (:)

Resultado: 805523

ConservarDesdeUltimoTexto

Conserva de la cadena de texto que siga después de una ocurrencia del ultimo caracter de texto (A/Z)

Ejemplo: ConservarDesdeUltimoTexto

Resultado: :805523

ConservarDesdePosicion (PosDesde,Largo)

Conserva de la cadena de texto que se encuentre entre el caracter numero PosDesde y conservar el largo de caracteres indicados en el parametro Largo. Esta regla sirve por ejemplo para tomar las primeras 100 posiciones de un texto (1,100).

Ejemplo: ConservarDesdePosicion (11,6)

Resultado: 805523

ConservarDesdePrimerTexto

Conserva de la cadena de texto dese que se encuentre la primera letra (a/z)

No tiene parámetros

Ejemplo: ConservarDesdePrimerTexto

Resultado: Factura: 805523

ConservarDesdePrimerNumero

Conserva de la cadena de texto dese que se encuentre el primer número (0/9)

Ejemplo: ConservarDesdePrimerNumero

Resultado: 805523

ConservarDesdePrimerCaracteresDeLista (Caracteres)

Conserva de la cadena interpretada solamente el texto que siga después de uno de los caracteres ingresados en el parametro Caracteres

Ejemplo: ConservarDesdePrimerCaracteresDeLista (0123456789)

Resultado: 805523

ConservarHasta(Texto)

Conserva el Texto hasta encontrar la cadena de texto ingresada en el parámetro Texto

Ejemplo: ConservarHasta(805523)

Resultado: Factura:

ConservarHastaInicio (Texto)

Conserva el Texto hasta encontrar la cadena de texto ingresada en el parametro Texto incluyendo el parametro

Ejemplo: ConservarHastaInicio(805523)

Resultado: Factura: 805523

ConservarHastaSaltoDeLinea

Conserva el texto hasta encontrar el primer salto de línea

Ejemplo: ConservarHastaSaltoDeLinea

Resultado: Factura: 805523

ConservarHastaUltimoNumero

Conserva el texto hasta encontrar el último número

Ejemplo: ConservarHastaUltimoNumero

Resultado: Factura: 805523

ConservarHastaUltimoTexto

Conserva el texto hasta encontrar el último carácter de texto.A saber:

qwertyuiopasdfghjklñzxcvbnmQWERTYUIOPASDFGHJKLÑZXCVBNM.

Esta regla incluye espacios pero no saltos de linea (enter)

Ejemplo: ConservarHastaUltimoTexto

Ejemplo: Factura: 111

Resultado: Factura

ConservarHastaUltimoCaracteresDeLista (Caracteres)

Conserva el texto hasta encontrar el último carácter ingresado en los parametros Caracteres

Ejemplo: ConservarHastaUltimoCaracteresDeLista (Fac)

Resultado: Fac

ConservarLineaLike (TextoLike)

Conserva solamente la primer línea que coincida con el TextoLike. El texto debe tener el formato de Like de VBA

Ejemplo: ConservarLineaLike (Fac*:*)

Resultado: Factora: 805523

ConservarLineasLike (TextoLike)

Conserva solamente la primer línea que coincida con el TextoLike. El texto debe tener el formato de Like de VBA

Ejemplo: ConservarLineasLike (Fac*:*)

Resultado: Factura: 805523 Factura: 805524 Factura: 805526

ConservarMascara (TextoLike)

Conserva texto que respete la mascara ingresada en el parametro TextoLike

Ejemplo: ConservarMascara (NNNNNN)

Resultado: 805523

ConservarRepetido (TextoLike)

Conserva solamente el dato que se encuentre repetido y cumpla con la máscara ingresada en el parametro TextoLike

Ejemplo: ConservarRepetido (N)

Resultado: 5

ConservarMascaraRegEx (TextoRegEx)

Conserva los textos que coincidan con la mascara RegEx ingresada en el parametro

Ejemplo: ConservarMascaraRegEx (\d\d\d\d\d\d)

Resultado: Factura: 805523

ConservarSiCaracteresMax(Numero)

Conserva los caracteres si tienen una cantidad máxima determinada. Si supera la cantidad establecida, se borra lo reconocido

Ejemplo: ConservarSiCaracteresMax(5)

Resultado: (Sin resultados)

ConservarSiCaracteresMin(Numero)

Conserva los caracteres si tienen una cantidad mínima determinada. Si no cumple con el mínimo establecido, se borra lo reconocido

Ejemplo: ConservarSiCaracteresMin(5)

Resultado: Factura: 805523

ConservarPalabrasAnterioresA (Texto,Numero)

Conserva las palabras anteriores a la palabra ingresada en la variable Texto. Se conservará la cantidad de palabras ingresadas en Numero

Ejemplo: ConservarPalabrasAnterioresA (8,1)

Resultado: Factura:

ConvertirAFecha (Cultura,FormatoOrigen,FormatoSalida)

Convierte una fecha de un formato predeterminado (FormatoOrigen)a otro formato predeterminado (FormatoSalida). Es necesario indicar la cultura en formato Windows en la que se interpretara el formato origen y de salida (dd/MM/YYYY)

Ejemplo:

Texto Origen: 28/12/1974 Regla: ConvertirAFecha (es, dd/MM/yyyy,yyyy-MM-dd) Resultado: 1974-12-28

Eliminar (Caracteres)

Elimina ciertos caracteres

Ejemplo: Eliminar (F)

Resultado: actura: 805523

EliminarCortesDeLinea

Elimina todos los cortes de línea de un texto

Ejemplo: EliminarCortesDeLinea

EliminarDesde(Texto)

Elimina desde que encuentra un texto en particular

Ejemplo: EliminarDesde(tora:)

Resultado: 805523

EliminarHasta(Texto)

Elimina hasta encontrar un texto en particular

Ejemplo: EliminarHasta(:)

Resultado: 805523

EliminarNumeros

Elimina los caracteres numéricos

Ejemplo: EliminarNumeros

Resultado: Factora:

EliminarTexto

Elimina los caracteres de texto

Ejemplo: EliminarTexto

Resultado: 805523

EliminarLineasVacias

Elimina todas las lineas vacias descartando espacios vacios

Ejemplo: EliminarLineasVacias

EliminarLineasConPocosCaracteres (NoChars)

Elimina todas las lineas que tengan menos caracteres que los informados en el parametro NoChars

Ejemplo: EliminarLineasConPocosCaracteres (25)

Resultado: (Sin resultado)

ForzarA (TextoObjetivo,PorcentajeAjuste)

Busca en el resultado de OCR una palabra que tenga similitud con el TextoObjetivo y, si la cantidad de caracteres que tiene de similitud es superior a la PorcentajeAjuste, realiza las conversiones necesarias para transformarlo. Atención: elevados porcentajes de ajuste en textos largos pueden ocasionar demoras importantes en el procesamiento.

Ejemplo: ForzarA(Factura,80)

Resultado: Factura: 805523

ForzarANumeros

Fuerza caracteres de texto a números

Ejemplo: ForzarANumeros

Resultado: Fac10ra: 805523

 

TextStream = TextStream.Replace("O", "0") TextStream = TextStream.Replace("S", "5") TextStream = TextStream.Replace("G", "6") TextStream = TextStream.Replace("H", "8") TextStream = TextStream.Replace("o", "0") TextStream = TextStream.Replace("s", "5") TextStream = TextStream.Replace("Z", "2") TextStream = TextStream.Replace("z", "2") TextStream = TextStream.Replace("?", "7") TextStream = TextStream.Replace("!", "1")

ForzarATexto

Fuerza caracteres de números a texto

Ejemplo: ForzarATexto

Resultado: Factura: BOSS23

 

TextStream = TextStream.Replace("0", "O") TextStream = TextStream.Replace("5", "S") TextStream = TextStream.Replace("6", "G") TextStream = TextStream.Replace("8", "H")

Reemplazar(Texto,Texto)

Reemplaza un Texto por otro Texto

Ejemplo: Reemplazar (Factora,Factura)

Resultado: Factura: 805523

Trim

Remueve espacios

Ejemplo: Trim

Resultado: Factura:805523

Reglas de Limpieza de campos - Captura

Las reglas de capturar utilizan la tecnología de NLP para capturar estructuras de datos conocidos como ser fechas, direcciones de correo o valores ya pre-armados y configurados en Captika.

 

 

Reglas de extracción - Captura

Reglas disponibles

Funcionalidad

Configuración y ejemplos

CapturarFecha (sCulture,sType,sSelectionCriteria,sFilter,sFilterParam)

Captura fecha en todos los formatos que puedan encontrarse. Pude parametrizarse el tipo de fecha que se quiere extraer, establecer el criterio para elegir de todas las fechas seleccionadas cual se desea conservar, y opcionalmente aplicar filtros.

Debido a que realiza varias operaciones que insumen muchos recursos es recomendable restringir cuando sea posible el texto objetivo sobre el que se realiza la captura de datos.

Se configura mediante los siguientes parámetros:

sCulture (Lenguaje)

spa Español eng Inglés

sType

date fechas DEFECTO duration duraciones daterange rangos de fechas dateAll todo tipo de fechas

sSelectionCriteria

Detail Detalle de las fechas encontradas All todas las fechas encontradas AllSolved todas las fechas resueltas First Primer fecha encontrada DEFECTO MostRepeated fecha mas repetida Max valor máximo alfanumerico Min valor mínimo alfanumerico TxtLarger línea de texto más corta TxtShorter línea de texto más larga

sFilter

Unsolved filtrar cadenas de texto de fechas no resueltas RegEx filtrar por máscara RegEx In filtrar valores de la lista NotIn filtrar valores que no están en la lista

sFilterParam

Parametro relacionado al Filtro

Ejempos:

CapturarFecha (spa) Captura la primer fecha encontrada en el texto

CapturarFecha (spa,All) Captura todas las fechas encontrada en el texto

CapturarFecha (spa,MostRepeated) Captura la fecha mas repetida en el texto objetivo

CapturarMails (sCulture,sType,sSelectionCriteria,sFilter,sFilterParam)

Captura direcciones de correo en todos los formatos que puedan encontrarse. Pude parametrizarse el tipo de fecha que se quiere extraer, establecer el criterio para elegir de todas las fechas seleccionadas cual se desea conservar, y opcionalmente aplicar filtros.

 

CapturarURLs (sCulture,sType,sSelectionCriteria,sFilter,sFilterParam)

Captura direcciones de internet URLs en todos los formatos que puedan encontrarse.

 

CapturarCUITCUILArgentino(sCUITCUILFILTER,sSelectionCriteria,sFilter,sFilterParam)

Capturar patrones de CUIT y CUILs argentinos verificando el dígito verificador capturado.

sCUITCUILFILTER (Opcional, defecto TODOS)

Las opciones son: PERSONA, EMPRESA,TODOS

sSelectionCriteria (Opcional, defecto First)

Las opciones son: First,All,AllComma,MostRepeated

sFilter (Opcional)

Las opciones son: NotIn, In,RegEx

sFilterParam (Opcional)

Parametros del Filtro usado. En NotIn seria el valor o listado de valores que no deben ser tomados como válidos. En In seria el listado de los valores validos. En RegEx seria la sentencia RegEx que filtre los valores

Ejemplo:

CapturarCUITCUILArgentino(EMPRESA)

Trae el primer CUIT de una empresa que apareza en el texto reconocido

CapturarCUITCUILArgentino(PERSONA,AllComma,NotIn,96870220-3)

Trae todos los CUILs (separados por coma) de personas que aparezan en el texto reconocido

CapturarRUTChileno (sRUTFILTER,sSelectionCriteria,sFilter,sFilterParam)

Capturar patrones de RUT chileno verificando el dígito verificador capturado

sRUTFILTER (Opcional, defecto TODOS)

Las opciones son: PERSONA, EMPRESA,TODOS

sSelectionCriteria (Opcional, defecto First)

Las opciones son: First,All,AllComma,MostRepeated

sFilter (Opcional)

Las opciones son: NotIn, In,RegEx

sFilterParam (Opcional)

Parametros del Filtro usado. En NotIn seria el valor o listado de valores que no deben ser tomados como válidos. En In seria el listado de los valores validos. En RegEx seria la sentencia RegEx que filtre los valores

Ejemplo:

CapturarRUTChileno(EMPRESA,First,NotIn,96870220-3)

Trae el primer RUT de una empresa encontrado que no sea 96870220-3

CapturarRUTChilenoEscrito(sRUTFILTER,sSelectionCriteria,sFilter,sFilterParam)

Capturar patrones de RUT chileno escritos como palabras verificando el dígito verificador capturado

sRUTFILTER (Opcional, defecto TODOS)

Las opciones son: PERSONA, EMPRESA,TODOS

sSelectionCriteria (Opcional, defecto First)

Las opciones son: First,All,AllComma,MostRepeated

sFilter (Opcional)

Las opciones son: NotIn, In,RegEx

sFilterParam (Opcional)

Parametros del Filtro usado. En NotIn seria el valor o listado de valores que no deben ser tomados como válidos. En In seria el listado de los valores validos. En RegEx seria la sentencia RegEx que filtre los valores

Ejemplo:

CapturarRUTChilenoEscrito (EMPRESA,First,NotIn,96870220-3)

Trae el primer RUT de una empresa encontrado que no sea 96870220-3

Reglas de Limpieza de campos - Candidatos

Durante la configuración de reglas puede ser capturar un dato varias veces para luego quedarnos con el valor más capturado. Para realizar esto una de las posibilidades es utilizar las reglas de Candidatos

Reglas de Candidatos

Reglas disponibles

Funcionalidad

Configuración y ejemplos

CandidatosAgregarPorMascaraRegEx (TextoRegEx)

Capturar y extraer todas las cadenas de textos que cumplan la máscara RegEx e incluirlos a la lista de candidatos

Ejemplo:

CandidatosAgregarPorMascaraRegEx (MAYO \d\d\d\d)

Incorpora a la lista de candidatos todos los textos que tengan la palabra MAYO seguido de un espacio y cuatro números.

CandidatosListar

Recupera la lista de candidatos diferentes encontrados separados por coma ( , )

Ejemplo:

CandidatosListar

Devuelve: MAYO 2018,MAYO 2019,MAYO 2020

CandidatosLimpiar

Limpia la lista de candidatos, se borran todos los valores anteriores sugeridos como candidatos

Ejemplo:

CandidatosLimpiar

CandidatoProponer

Mediante esta regla se podrá sugerir un valor candidato como valor final. Se pueden proponer varios valores y luego mediante las reglas CandidatoPromover dejar como resultado el valor que fue más veces propuesto. Esta regla es útil para aquellos documentos en los que un dato se encuentra varias veces en un mismo documento, se puede extraer de varios lados y proponer los resultados y luego promover el que fue más veces leído.

Ejemplo:

CargarTodoTextoReconocido

ConservarMascara (NN-NNNNNNNN-N)

CandidatoProponer

CargarTodoTextoReconocido

ConservarDesde (CUIT:)

ConservarHastaSaltoDeLinea

CandidatoProponer

CandidatoPromover

CandidatoPromover

Devuelve el valor del texto mas repetido incorporado a la lista de valores de candidatos

Ejemplo:

CandidatoPromover

Devuelve: MAYO 2018

CandidatoPromover (OcurrenciasMinimas)

Usando esta regla solo devolverá un valor si el mismo texto fue leído al menos tantas veces como las indicadas en la variable OcurrenciasMinimas.

Ejemplo:

CargarTodoTextoReconocido ConservarMascara (NN-NNNNNNNN-N) CandidatoProponer CargarTodoTextoReconocido ConservarDesde (CUIT:) ConservarHastaSaltoDeLinea CandidatoProponer CandidatoPromover(2)

Reglas de Limpieza de campos - Campos Captika

Durante la configuración de reglas puede guardarse y recuperarse valores de campos de Captika, para lo cual pueden utilizarse las siguientes reglas

 

 

Reglas de Candidatos

Reglas disponibles

Funcionalidad

Configuración y ejemplos

CampoSetear (NombreCampo)

Esta regla permite setear el valor de un campo de Captika con el valor del texto limpiado hasta el momento de ejecución de la regla

 

CampoSetear (NombreCampo,ValorCampo)

Esta regla permite setear el valor de un campo de Captika durante el transcurso de la ejecución de reglas, permitiendo de esta forma en una sola ejecución de reglas capturar varios campos o bien almacenar datos temporales para ser usados posteriormente en otras reglas.

 

CampoRecuperar (NombreCampo)

Mediante esta regla se podrá recuperar el valor de un campo del documento/pagina para ser utilizado y procesados (o limpiado) por las subsiguientes reglas.

 

CampoExtraerDatosConTemplate (sConfigName,sTemplateName,sFieldName)

Permite extraer y datos y setearlos en un campo de Captika ejecutando un template.

Parametros:

sConfigName

Nombre del Set de Configuración a utilizar para extraer el valor del campo

sTemplateName

Nombre del Template de configuración a utilizar para extraer el valor de un campo

sFieldName

Nombre del campo del template que se desea extraer y setear en el campo

Reglas de Limpieza de campos - Lógicas

El módulo de reglas brinda varias reglas logicas que permiten detener el procesamiento, cancelarlo, o realizar ejecuciones condicionales

 

 

Reglas de limpieza - Logicas

FinalizarSiLargo (Numero)

Detiene el procesamiento de reglas de limpieza si el resultado de la limpieza tiene un largo igual al informado

Ejemplo: FinalizarSiLargo(11)

Resultado: Toma como valor Factura: 805523 (y deja de procesar reglas posteriores)

FinalizarSiLargoEntoncesDevolver (Numero,TextoDevolver)

Detiene el procesamiento de reglas de limpieza si el resultado de la limpieza tiene un largo igual al informado, pero setea el texto que será fijado al campo en lo informado en el parametro TextoDevolver

Ejemplo: FinalizarSiLargoEntoncesDevolver (11,FACTURA)

Resultado: FACTURA (y deja de procesar reglas posteriores)

FinalizarSiLike (TextoLike)

Detiene el procesamiento de reglas de limpieza si el texto reconocido es similar al Texto informado

Ejemplo: FinalizarSiLike(???????: NNNNNN)

Resultado: Toma como valor Factura: 805523 (y deja de procesar reglas posteriores)

FinalizarSiLikeEntoncesDevolver (TextoLike,TextoDevolver)

Detiene el procesamiento de reglas de limpieza si el texto reconocido es similar al Texto informado, pero setea el texto que será fijado al campo en lo informado en el parametro TextoDevolver

Ejemplo: FinalizarSiLikeEntoncesDevolver (???????: NNNNNN,FACTURA)

Resultado: FACTURA (y deja de procesar reglas posteriores)

FinalizarSiNoNulo

Detiene el procesamiento si el texto limpiado no es nulo

 

FinalizarSiCampoNoNulo (CaptikaFieldName)

Detiene el procesamiento si el valor del campo de Captika informado no es nulo. Y al mismo tiempo deja el valor del campo indicado como texto resultante.

 

FinalizarSiCampoValorEs (CaptikaFieldName, CaptikaFieldValue)

Detiene el procesamiento si el valor del campo de Captika informado tiene el valor informado en la variable CaptikaFieldValue

 

Si (Expression1=Expression2) / Si (Expression1<>Expression2) / SiFin

Estas reglas permitirán ejecutar las reglas posteriores si se cumple la expresión configurada.

La ejecución de las reglas posteriores solo se ejecutara hasta tanto se ejecute la regla SiFin

If (TextoReconocido=Valor(Hello world!))

Si el texto reconocido hasta el momento es igual a Hello world entonces ejecutara todas las reglas subsiguientes hasta detectar el IfEnd

Cancelar

Detiene la ejecución de reglas

 

Reglas de Limpieza de campos - CargarTexto

Durante la configuración de reglas puede ser requerido volver recacargar el texto e inclusive intentar nuevas configuraciones de extracción de datos. El siguiente cuadro muestra todas las posibilidades de configuración disponibles:

 

 

Reglas de cargas de datos

Reglas disponibles

Funcionalidad

Configuración y ejemplos

BorrarTodo

Borrar todo el texto reconocido

 

CargarTextoPagina

Recupera todo el texto reconocido de la página utilizando la configuración establecida para extracción definida para el campo, como ser zonas de extracción, tipos de captura (PDFLayer o OCR) e idioma.

Ejemplo:

CargarTextoPagina

Recarga nuevamente el texto capturado antes de ser limpiado por reglas anteriores.

CargarTextoPagina (OCRTipo,OCRIdioma,Coordenadas)

Recupera todo el texto reconocido de la pagina pero con nuevas configuraciones de OCR o PDF

Se configura mediante los siguientes parámetros:

OCRTipo (Tipo de captura)

1-OCR (Pagina rotada con segmentación automática) 3-OCR (Pagina con segmentación automática) PDFSmartLayerSorted+OCR (Intentar primero leer capa de PDF y si no se encuentra hacer 1-OCR)

OCRIdioma (Lenguaje)

spa Español eng Inglés

Coordenadas

Per|1|1|10000|10000 (coordenadas de captura escaladas a 10,000 tanto en lo alto como en lo ancho. Los componentes son los siguientes Per|desdeX|desdeY|LargoX|LargoY -solo requerida para OCRs) Fix|1|1|10000|10000 (coordenadas de captura fijas sin escalamiento desdeX,desdeY,LargoX,LargoY -solo requerida para OCRs)

Ejempos:

CargarTextoPagina (1-OCR,spa)

Vuelve a capturar los datos usando 1-OCR (página segmentada con rotación automática de texto y ajuste a diccionario español)

CargarTextoPagina (1-OCR,spa,Per|1|1|1000|1000)

Vuelve a capturar los datos usando 1-OCR (página segmentada de texto con ajuste a diccionario de español y tomando el 10% superior del documento)

CargarTextoPaginaProxima (OCRTipo,OCRIdioma,Coordenadas)

Recupera todo el texto reconocido de la página siguiente (no funciona en Configuraciones OnCapture ya que el reconocimiento se realiza a medida que se captura cada una de las pantallas). En caso que sea la última página de un documento devuelve vacío.

Ejemplo:

CargarTextoPaginaProxima(1-OCR,spa,Per|1|1|10000|10000)

Carga y extrae el texto completo de la pagina próxima a la actual

CargarTextoPaginaProximaSumar (OCRTipo,OCRIdioma,Coordenadas)

Recupera todo el texto reconocido de la próxima página y lo adiciona al texto reconocido en la pagina actual (Fusionando ambos textos). Es útil para el reconocimiento y extracción de datos que pueden extenderse en varias páginas.

Ejemplo:

CargarTextoPaginaProximaSumar(1-OCR,spa)

Captura los datos de la pagina próxima usando 1-OCR (página segmentada con rotación automática de texto y ajuste a diccionario español) y lo adiciona al texto reconocido de la pagina actual

CargarTextoPaginaPrevia (OCRType,OCRLang,Coordinadas)

Recupera todo el texto reconocido de la página anterior. En caso que sea la primer página de un documento devuelve vacío.

Ejemplo:

CargarTextoPaginaPrevia (1-OCR,spa,Per|1|1|10000|10000)

Carga y extrae el texto completo de la página anterior a la actual.

CargarTextoPaginaPreviaSumar (OCRTipo,OCRIdioma,Coordenadas)

Recupera todo el texto reconocido de la próxima anterior y lo adiciona al texto reconocido en la pagina actual (Fusionando ambos textos). Es útil para el reconocimiento y extracción de datos que pueden extenderse en varias páginas.

Ejemplo:

CargarTextoPaginaPreviaSumar(1-OCR,spa)

Captura los datos de la pagina anterior usando 1-OCR (página segmentada con rotación automática de texto y ajuste a diccionario español) y lo adiciona al texto reconocido de la pagina actual

CargarTextoDocumentoCompleto (OCRTipo,OCRIdioma,Coordenadas)

Recupera todo el texto reconocido de todas las paginas del documento y las fusiona

Ejemplo:

CargarTextoPaginaPreviaSumar(1-OCR,spa)

Captura los datos de todas las paginas del documento usando 1-OCR (página segmentada con rotación automática de texto y ajuste a diccionario español)

SetearCapaPDFConNuevoOCR (OCRTipo,OCRIdioma,Coordenadas)

Algunos PDFs pueden venir con capas de texto que no tengan alto nivel de reconocimiento de OCR e incluyan fallas de muchos caracteres. Para resolver estos casos podemos necesitar que Captika realice una lectura de OCR con su motor propio para reemplazar la capa provista por el PDF original por el OCR realizado por Captika.

Una vez aplicado esta lectura no podrá revertirse, es decir todas las posteriores consultas que se hagan sobre la página al PDFLayer devolverán el resultado de OCR de Captika. Esto no afectará la estructura del PDF físico que continuará teniendo su capa de texto original. Solo afectara en la ejecución de reglas y lecturas que haga Captika sobre esa página.

Ejemplo:

SetearCapaPDFConNuevoOCR (1-OCR,spa)

Realiza un OCR del tipo 1-OCR (página segmentada con rotación automática de texto y ajuste a diccionario español) y remplaza la capa de texto (solo para la ejecucion de reglas de limpieza y extracción)

Reglas de Limpieza de campos - Ejecuciones

Durante la configuración de reglas puede ejecutarse Scripts de VB o recorrer nuevamente ejecuciones de Templates de Reconocimiento. Estas son las opciones



Reglas de ejecuciones

 

 

Reglas disponibles

Funcionalidad

Configuración y ejemplos

EjecutarReconocimientoDeTemplate (NombreSetConfiguración)

Ejecuta todos los templates de un Set de Configuración

 

EjecutarReconocimientoDeTemplates (EtapaDeReconocimiento,ListaExclusionConfiguraciones)

Ejecuta todos los tempates de una etapa de reconocimiento (OnCapture,OnPublish)

Los parametros son

EtapaDeReconocimiento

OnCapture OnPublish

ListaExclusionConfiguraciones

Nombre de todas las configuraciones que se desean excluir de la etapa seleccionada separada por pipes

EjecutarScripting

Ejecuta Scripting pasandole al mismo el texto que se posee limpiado hasta el momento de la regla

 

Related content