Reglas de limpieza
- 1.1 Capitalizar
- 1.2 Conservar (Caracteres)
- 1.3 ConservarAlfanumericos
- 1.4 ConservarNumeros
- 1.5 ConservarTexto
- 1.6 ConservarTextoEntre (ListaDeTextoDesde,ListaDeTextoHasta,sBoundaries,sSelectionCriteria,sFilter,sFilterParam)
- 1.7 ConservarDesde(Texto)
- 1.8 ConservarDesdeIncluyendo (Texto)
- 1.9 ConservarDesdeUltimo (Texto)
- 1.10 ConservarDesdeUltimoTexto
- 1.11 ConservarDesdePosicion (PosDesde,Largo)
- 1.12 ConservarDesdePrimerTexto
- 1.13 ConservarDesdePrimerNumero
- 1.14 ConservarDesdePrimerCaracteresDeLista (Caracteres)
- 1.15 ConservarHasta(Texto)
- 1.16 ConservarHastaInicio (Texto)
- 1.17 ConservarHastaSaltoDeLinea
- 1.18 ConservarHastaUltimoNumero
- 1.19 ConservarHastaUltimoTexto
- 1.20 ConservarHastaUltimoCaracteresDeLista (Caracteres)
- 1.21 ConservarLineaLike (TextoLike)
- 1.22 ConservarLineasLike (TextoLike)
- 1.23 ConservarMascara (TextoLike)
- 1.24 ConservarRepetido (TextoLike)
- 1.25 ConservarMascaraRegEx (TextoRegEx)
- 1.26 ConservarSiCaracteresMax(Numero)
- 1.27 ConservarSiCaracteresMin(Numero)
- 1.28 ConservarPalabrasAnterioresA (Texto,Numero)
- 1.29 ConvertirAFecha (Cultura,FormatoOrigen,FormatoSalida)
- 1.30 Eliminar (Caracteres)
- 1.31 EliminarCortesDeLinea
- 1.32 EliminarDesde(Texto)
- 1.33 EliminarHasta(Texto)
- 1.34 EliminarNumeros
- 1.35 EliminarTexto
- 1.36 EliminarLineasVacias
- 1.37 EliminarLineasConPocosCaracteres (NoChars)
- 1.38 ForzarA (TextoObjetivo,PorcentajeAjuste)
- 1.39 ForzarANumeros
- 1.40 ForzarATexto
- 1.41 Reemplazar(Texto,Texto)
- 1.42 Trim
- 2 Reglas de Limpieza de campos - Captura
- 2.1 CapturarFecha (sCulture,sType,sSelectionCriteria,sFilter,sFilterParam)
- 2.2 CapturarMails (sCulture,sType,sSelectionCriteria,sFilter,sFilterParam)
- 2.3 CapturarURLs (sCulture,sType,sSelectionCriteria,sFilter,sFilterParam)
- 2.4 CapturarCUITCUILArgentino(sCUITCUILFILTER,sSelectionCriteria,sFilter,sFilterParam)
- 2.5 sSelectionCriteria (Opcional, defecto First)
- 2.6 sFilter (Opcional)
- 2.7 sFilterParam (Opcional)
- 2.8 CapturarCUITCUILArgentino(EMPRESA)
- 2.9 CapturarCUITCUILArgentino(PERSONA,AllComma,NotIn,96870220-3)
- 2.10 CapturarRUTChileno (sRUTFILTER,sSelectionCriteria,sFilter,sFilterParam)
- 2.11 sSelectionCriteria (Opcional, defecto First)
- 2.12 sFilter (Opcional)
- 2.13 sFilterParam (Opcional)
- 2.14 CapturarRUTChilenoEscrito(sRUTFILTER,sSelectionCriteria,sFilter,sFilterParam)
- 2.15 sSelectionCriteria (Opcional, defecto First)
- 2.16 sFilter (Opcional)
- 2.17 sFilterParam (Opcional)
- 3 Reglas de Limpieza de campos - Candidatos
- 4 Reglas de Limpieza de campos - Campos Captika
- 5 Reglas de Limpieza de campos - Lógicas
- 5.1 FinalizarSiLargo (Numero)
- 5.2 FinalizarSiLargoEntoncesDevolver (Numero,TextoDevolver)
- 5.3 FinalizarSiLike (TextoLike)
- 5.4 FinalizarSiLikeEntoncesDevolver (TextoLike,TextoDevolver)
- 5.5 FinalizarSiNoNulo
- 5.6 FinalizarSiCampoNoNulo (CaptikaFieldName)
- 5.7 FinalizarSiCampoValorEs (CaptikaFieldName, CaptikaFieldValue)
- 5.8 Si (Expression1=Expression2) / Si (Expression1<>Expression2) / SiFin
- 5.9 Cancelar
- 6 Reglas de Limpieza de campos - CargarTexto
- 6.1 BorrarTodo
- 6.2 CargarTextoPagina
- 6.3 CargarTextoPagina (OCRTipo,OCRIdioma,Coordenadas)
- 6.4 CargarTextoPaginaProxima (OCRTipo,OCRIdioma,Coordenadas)
- 6.5 CargarTextoPaginaProximaSumar (OCRTipo,OCRIdioma,Coordenadas)
- 6.6 CargarTextoPaginaPrevia (OCRType,OCRLang,Coordinadas)
- 6.7 CargarTextoPaginaPreviaSumar (OCRTipo,OCRIdioma,Coordenadas)
- 6.8 CargarTextoDocumentoCompleto (OCRTipo,OCRIdioma,Coordenadas)
- 6.9 SetearCapaPDFConNuevoOCR (OCRTipo,OCRIdioma,Coordenadas)
- 7 Reglas de Limpieza de campos - Ejecuciones
Es posible configurar una lista de pautas que hagan una limpieza del resultado reconocido. Por ejemplo, si el resultado del OCR es "Factura: 805523", podría configurarse una regla para que se almacene solamente con el número de factura en el campo:
Valor reconocido | Regla | Resultado |
---|---|---|
Factura: 805523 | ConservarDesde(Factura:) | 805523 |
Las reglas se van ejecutando en el orden en el que figuran en la Lista de Reglas de Limpieza de OCR, si queremos cambiar el orden el sistema brinda flechas que nos permiten subir/bajar la reglas seleccionada en la lista.
Para generar una regla nueva y agregarla a la lista, seleccione una regla del combo desplegable y reemplace por los argumentos que se indican entre el paréntesis por los valores deseados, Texto, Numero, Caracteres, TextoObjetivo, TasaExactitud, etc. Luego, presione el botón + para agregarla a la lista.
El siguiente cuadro muestra todas las posibilidades de configuración disponibles:
Reglas disponibles | Funcionalidad | Configuración y ejemplos Texto leído: Factora: 805523 |
---|---|---|
Capitalizar | Capitaliza todo el texto reconocido | Ejemplo: Capitalizar Resultado: FACTURA: 805523 |
Conservar (Caracteres) | Conserva solamente los caracteres indicados | Ejemplo: Conservar (80523) Resultado: 805523 |
ConservarAlfanumericos | Conserva caracteres alfanumericos A/Z y del 0/9 | Ejemplo: ConservarAlfanumericos Resultado: FACTURA 805523 |
ConservarNumeros | Conserva solamente los números | Ejemplo: ConservarNumeros Resultado: 805523 |
ConservarTexto | Conserva solamente los caracteres de texto | Ejemplo: ConservarTexto Resultado: Factura: |
ConservarTextoEntre (ListaDeTextoDesde,ListaDeTextoHasta,sBoundaries,sSelectionCriteria,sFilter,sFilterParam) | Conserva el texto entre dos cadenas de texto | Los parámetros son los siguientes: ListaDeTextoDesde texto simple o listado de valores de texto. En el caso de querer usar una lista de valores posibles estos deben estar separados por pipes. En caso de caracteres especiales debe utilizarse nomenclatura RegEx
ListaDeTextoHasta texto simple o listado de valores de texto. En el caso de querer usar una lista de valores posibles estos deben estar separados por pipes. En caso de caracteres especiales . En caso de caracteres especiales debe utilizarse nomenclatura RegEx
Boundaries 0- Las palabras limites no son incluidas en los resultados
sSelectionCriteria Criterio de selección de resultados, en caso contar con múltiples candidatos cual debe quedar como resultado, las opciones son:
sFilter Unsolved filtrar cadenas de texto de fechas no resueltas
sFilterParam
Ejemplos: ConservarTextoEntre (Factura:,\n) (Conservar texto entre la palabra factura y el entero o salto de línea en formato Regex Resultado: 805523 ConservarTextoEntre ((Factura:!Comprobante!:),\n) (Conservar texto que se encuentre entre las palabras Factora:, Comprobantes y los dos puntos y el salto de línea) Resultado: 805523 ConservarTextoEntre ((Factura:!Comprobante!:),(\n),MostRepeated (Conservar texto mas repetido que se encuentre entre las palabras Factora:, Comprobantes y los dos puntos y el salto de línea) Resultado: 805523 |
ConservarDesde(Texto) | Conserva de la cadena de texto que siga después de una ocurrencia del texto de referencia indicado en el parámetro Texto | Ejemplo: ConservarDesde(Factura:) Resultado: 805523 |
ConservarDesdeIncluyendo (Texto) | Conserva de la cadena de texto que siga después de una ocurrencia del texto de referencia indicado en el parámetro Texto, incluyendo la palabra indicada en el parámetro. | Ejemplo: ConservarDesdeIncluyendo(8) Resultado: 805523 |
ConservarDesdeUltimo (Texto) | Conserva de la cadena de texto que siga después de la ultima ocurrencia de Texto | Ejemplo: ConservarDesdeUltimo (:) Resultado: 805523 |
ConservarDesdeUltimoTexto | Conserva de la cadena de texto que siga después de una ocurrencia del ultimo caracter de texto (A/Z) | Ejemplo: ConservarDesdeUltimoTexto Resultado: :805523 |
ConservarDesdePosicion (PosDesde,Largo) | Conserva de la cadena de texto que se encuentre entre el caracter numero PosDesde y conservar el largo de caracteres indicados en el parametro Largo. Esta regla sirve por ejemplo para tomar las primeras 100 posiciones de un texto (1,100). | Ejemplo: ConservarDesdePosicion (11,6) Resultado: 805523 |
ConservarDesdePrimerTexto | Conserva de la cadena de texto dese que se encuentre la primera letra (a/z) | No tiene parámetros Ejemplo: ConservarDesdePrimerTexto Resultado: Factura: 805523 |
ConservarDesdePrimerNumero | Conserva de la cadena de texto dese que se encuentre el primer número (0/9) | Ejemplo: ConservarDesdePrimerNumero Resultado: 805523 |
ConservarDesdePrimerCaracteresDeLista (Caracteres) | Conserva de la cadena interpretada solamente el texto que siga después de uno de los caracteres ingresados en el parametro Caracteres | Ejemplo: ConservarDesdePrimerCaracteresDeLista (0123456789) Resultado: 805523 |
ConservarHasta(Texto) | Conserva el Texto hasta encontrar la cadena de texto ingresada en el parámetro Texto | Ejemplo: ConservarHasta(805523) Resultado: Factura: |
ConservarHastaInicio (Texto) | Conserva el Texto hasta encontrar la cadena de texto ingresada en el parametro Texto incluyendo el parametro | Ejemplo: ConservarHastaInicio(805523) Resultado: Factura: 805523 |
ConservarHastaSaltoDeLinea | Conserva el texto hasta encontrar el primer salto de línea | Ejemplo: ConservarHastaSaltoDeLinea Resultado: Factura: 805523 |
ConservarHastaUltimoNumero | Conserva el texto hasta encontrar el último número | Ejemplo: ConservarHastaUltimoNumero Resultado: Factura: 805523 |
ConservarHastaUltimoTexto | Conserva el texto hasta encontrar el último carácter de texto.A saber: qwertyuiopasdfghjklñzxcvbnmQWERTYUIOPASDFGHJKLÑZXCVBNM. Esta regla incluye espacios pero no saltos de linea (enter) | Ejemplo: ConservarHastaUltimoTexto Ejemplo: Factura: 111 Resultado: Factura |
ConservarHastaUltimoCaracteresDeLista (Caracteres) | Conserva el texto hasta encontrar el último carácter ingresado en los parametros Caracteres | Ejemplo: ConservarHastaUltimoCaracteresDeLista (Fac) Resultado: Fac |
ConservarLineaLike (TextoLike) | Conserva solamente la primer línea que coincida con el TextoLike. El texto debe tener el formato de Like de VBA | Ejemplo: ConservarLineaLike (Fac*:*) Resultado: Factora: 805523 |
ConservarLineasLike (TextoLike) | Conserva solamente la primer línea que coincida con el TextoLike. El texto debe tener el formato de Like de VBA | Ejemplo: ConservarLineasLike (Fac*:*) Resultado: Factura: 805523 Factura: 805524 Factura: 805526 |
ConservarMascara (TextoLike) | Conserva texto que respete la mascara ingresada en el parametro TextoLike | Ejemplo: ConservarMascara (NNNNNN) Resultado: 805523 |
ConservarRepetido (TextoLike) | Conserva solamente el dato que se encuentre repetido y cumpla con la máscara ingresada en el parametro TextoLike | Ejemplo: ConservarRepetido (N) Resultado: 5 |
ConservarMascaraRegEx (TextoRegEx) | Conserva los textos que coincidan con la mascara RegEx ingresada en el parametro | Ejemplo: ConservarMascaraRegEx (\d\d\d\d\d\d) Resultado: Factura: 805523 |
ConservarSiCaracteresMax(Numero) | Conserva los caracteres si tienen una cantidad máxima determinada. Si supera la cantidad establecida, se borra lo reconocido | Ejemplo: ConservarSiCaracteresMax(5) Resultado: (Sin resultados) |
ConservarSiCaracteresMin(Numero) | Conserva los caracteres si tienen una cantidad mínima determinada. Si no cumple con el mínimo establecido, se borra lo reconocido | Ejemplo: ConservarSiCaracteresMin(5) Resultado: Factura: 805523 |
ConservarPalabrasAnterioresA (Texto,Numero) | Conserva las palabras anteriores a la palabra ingresada en la variable Texto. Se conservará la cantidad de palabras ingresadas en Numero | Ejemplo: ConservarPalabrasAnterioresA (8,1) Resultado: Factura: |
ConvertirAFecha (Cultura,FormatoOrigen,FormatoSalida) | Convierte una fecha de un formato predeterminado (FormatoOrigen)a otro formato predeterminado (FormatoSalida). Es necesario indicar la cultura en formato Windows en la que se interpretara el formato origen y de salida (dd/MM/YYYY) | Ejemplo: Texto Origen: 28/12/1974 Regla: ConvertirAFecha (es, dd/MM/yyyy,yyyy-MM-dd) Resultado: 1974-12-28 |
Eliminar (Caracteres) | Elimina ciertos caracteres | Ejemplo: Eliminar (F) Resultado: actura: 805523 |
EliminarCortesDeLinea | Elimina todos los cortes de línea de un texto | Ejemplo: EliminarCortesDeLinea |
EliminarDesde(Texto) | Elimina desde que encuentra un texto en particular | Ejemplo: EliminarDesde(tora:) Resultado: 805523 |
EliminarHasta(Texto) | Elimina hasta encontrar un texto en particular | Ejemplo: EliminarHasta(:) Resultado: 805523 |
EliminarNumeros | Elimina los caracteres numéricos | Ejemplo: EliminarNumeros Resultado: Factora: |
EliminarTexto | Elimina los caracteres de texto | Ejemplo: EliminarTexto Resultado: 805523 |
EliminarLineasVacias | Elimina todas las lineas vacias descartando espacios vacios | Ejemplo: EliminarLineasVacias |
EliminarLineasConPocosCaracteres (NoChars) | Elimina todas las lineas que tengan menos caracteres que los informados en el parametro NoChars | Ejemplo: EliminarLineasConPocosCaracteres (25) Resultado: (Sin resultado) |
ForzarA (TextoObjetivo,PorcentajeAjuste) | Busca en el resultado de OCR una palabra que tenga similitud con el TextoObjetivo y, si la cantidad de caracteres que tiene de similitud es superior a la PorcentajeAjuste, realiza las conversiones necesarias para transformarlo. Atención: elevados porcentajes de ajuste en textos largos pueden ocasionar demoras importantes en el procesamiento. | Ejemplo: ForzarA(Factura,80) Resultado: Factura: 805523 |
ForzarANumeros | Fuerza caracteres de texto a números | Ejemplo: ForzarANumeros Resultado: Fac10ra: 805523
TextStream = TextStream.Replace("O", "0")
TextStream = TextStream.Replace("S", "5")
TextStream = TextStream.Replace("G", "6")
TextStream = TextStream.Replace("H", "8")
TextStream = TextStream.Replace("o", "0")
TextStream = TextStream.Replace("s", "5")
TextStream = TextStream.Replace("Z", "2")
TextStream = TextStream.Replace("z", "2")
TextStream = TextStream.Replace("?", "7")
TextStream = TextStream.Replace("!", "1") |
ForzarATexto | Fuerza caracteres de números a texto | Ejemplo: ForzarATexto Resultado: Factura: BOSS23
TextStream = TextStream.Replace("0", "O")
TextStream = TextStream.Replace("5", "S")
TextStream = TextStream.Replace("6", "G")
TextStream = TextStream.Replace("8", "H") |
Reemplazar(Texto,Texto) | Reemplaza un Texto por otro Texto | Ejemplo: Reemplazar (Factora,Factura) Resultado: Factura: 805523 |
Trim | Remueve espacios | Ejemplo: Trim Resultado: Factura:805523 |
Reglas de Limpieza de campos - Captura
Las reglas de capturar utilizan la tecnología de NLP para capturar estructuras de datos conocidos como ser fechas, direcciones de correo o valores ya pre-armados y configurados en Captika.
|
| Reglas de extracción - Captura |
Reglas disponibles | Funcionalidad | Configuración y ejemplos |
---|---|---|
CapturarFecha (sCulture,sType,sSelectionCriteria,sFilter,sFilterParam) | Captura fecha en todos los formatos que puedan encontrarse. Pude parametrizarse el tipo de fecha que se quiere extraer, establecer el criterio para elegir de todas las fechas seleccionadas cual se desea conservar, y opcionalmente aplicar filtros. Debido a que realiza varias operaciones que insumen muchos recursos es recomendable restringir cuando sea posible el texto objetivo sobre el que se realiza la captura de datos. | Se configura mediante los siguientes parámetros: sCulture (Lenguaje) spa Español
eng Inglés
sType date fechas DEFECTO
duration duraciones
daterange rangos de fechas
dateAll todo tipo de fechas
sSelectionCriteria Detail Detalle de las fechas encontradas
All todas las fechas encontradas
AllSolved todas las fechas resueltas
First Primer fecha encontrada DEFECTO
MostRepeated fecha mas repetida
Max valor máximo alfanumerico
Min valor mínimo alfanumerico
TxtLarger línea de texto más corta
TxtShorter línea de texto más larga
sFilter Unsolved filtrar cadenas de texto de fechas no resueltas
RegEx filtrar por máscara RegEx
In filtrar valores de la lista
NotIn filtrar valores que no están en la lista
sFilterParam Parametro relacionado al Filtro
Ejempos: CapturarFecha (spa) Captura la primer fecha encontrada en el texto CapturarFecha (spa,All) Captura todas las fechas encontrada en el texto CapturarFecha (spa,MostRepeated) Captura la fecha mas repetida en el texto objetivo |
CapturarMails (sCulture,sType,sSelectionCriteria,sFilter,sFilterParam) | Captura direcciones de correo en todos los formatos que puedan encontrarse. Pude parametrizarse el tipo de fecha que se quiere extraer, establecer el criterio para elegir de todas las fechas seleccionadas cual se desea conservar, y opcionalmente aplicar filtros. |
|
CapturarURLs (sCulture,sType,sSelectionCriteria,sFilter,sFilterParam) | Captura direcciones de internet URLs en todos los formatos que puedan encontrarse. |
|
CapturarCUITCUILArgentino(sCUITCUILFILTER,sSelectionCriteria,sFilter,sFilterParam) | Capturar patrones de CUIT y CUILs argentinos verificando el dígito verificador capturado. | sCUITCUILFILTER (Opcional, defecto TODOS) Las opciones son: PERSONA, EMPRESA,TODOS sSelectionCriteria (Opcional, defecto First)Las opciones son: First,All,AllComma,MostRepeated sFilter (Opcional)Las opciones son: NotIn, In,RegEx sFilterParam (Opcional)Parametros del Filtro usado. En NotIn seria el valor o listado de valores que no deben ser tomados como válidos. En In seria el listado de los valores validos. En RegEx seria la sentencia RegEx que filtre los valores Ejemplo: CapturarCUITCUILArgentino(EMPRESA)Trae el primer CUIT de una empresa que apareza en el texto reconocido CapturarCUITCUILArgentino(PERSONA,AllComma,NotIn,96870220-3)Trae todos los CUILs (separados por coma) de personas que aparezan en el texto reconocido |
CapturarRUTChileno (sRUTFILTER,sSelectionCriteria,sFilter,sFilterParam) | Capturar patrones de RUT chileno verificando el dígito verificador capturado | sRUTFILTER (Opcional, defecto TODOS) Las opciones son: PERSONA, EMPRESA,TODOS sSelectionCriteria (Opcional, defecto First)Las opciones son: First,All,AllComma,MostRepeated sFilter (Opcional)Las opciones son: NotIn, In,RegEx sFilterParam (Opcional)Parametros del Filtro usado. En NotIn seria el valor o listado de valores que no deben ser tomados como válidos. En In seria el listado de los valores validos. En RegEx seria la sentencia RegEx que filtre los valores Ejemplo: CapturarRUTChileno(EMPRESA,First,NotIn,96870220-3) Trae el primer RUT de una empresa encontrado que no sea 96870220-3 |
CapturarRUTChilenoEscrito(sRUTFILTER,sSelectionCriteria,sFilter,sFilterParam) | Capturar patrones de RUT chileno escritos como palabras verificando el dígito verificador capturado | sRUTFILTER (Opcional, defecto TODOS) Las opciones son: PERSONA, EMPRESA,TODOS sSelectionCriteria (Opcional, defecto First)Las opciones son: First,All,AllComma,MostRepeated sFilter (Opcional)Las opciones son: NotIn, In,RegEx sFilterParam (Opcional)Parametros del Filtro usado. En NotIn seria el valor o listado de valores que no deben ser tomados como válidos. En In seria el listado de los valores validos. En RegEx seria la sentencia RegEx que filtre los valores Ejemplo: CapturarRUTChilenoEscrito (EMPRESA,First,NotIn,96870220-3) Trae el primer RUT de una empresa encontrado que no sea 96870220-3 |
Reglas de Limpieza de campos - Candidatos
Durante la configuración de reglas puede ser capturar un dato varias veces para luego quedarnos con el valor más capturado. Para realizar esto una de las posibilidades es utilizar las reglas de Candidatos
Reglas de Candidatos | ||
Reglas disponibles | Funcionalidad | Configuración y ejemplos |
---|---|---|
CandidatosAgregarPorMascaraRegEx (TextoRegEx) | Capturar y extraer todas las cadenas de textos que cumplan la máscara RegEx e incluirlos a la lista de candidatos | Ejemplo: CandidatosAgregarPorMascaraRegEx (MAYO \d\d\d\d) Incorpora a la lista de candidatos todos los textos que tengan la palabra MAYO seguido de un espacio y cuatro números. |
CandidatosListar | Recupera la lista de candidatos diferentes encontrados separados por coma ( , ) | Ejemplo: CandidatosListar Devuelve: MAYO 2018,MAYO 2019,MAYO 2020 |
CandidatosLimpiar | Limpia la lista de candidatos, se borran todos los valores anteriores sugeridos como candidatos | Ejemplo: CandidatosLimpiar |
CandidatoProponer | Mediante esta regla se podrá sugerir un valor candidato como valor final. Se pueden proponer varios valores y luego mediante las reglas CandidatoPromover dejar como resultado el valor que fue más veces propuesto. Esta regla es útil para aquellos documentos en los que un dato se encuentra varias veces en un mismo documento, se puede extraer de varios lados y proponer los resultados y luego promover el que fue más veces leído. | Ejemplo: CargarTodoTextoReconocido ConservarMascara (NN-NNNNNNNN-N) CandidatoProponer CargarTodoTextoReconocido ConservarDesde (CUIT:) ConservarHastaSaltoDeLinea CandidatoProponer CandidatoPromover |
CandidatoPromover | Devuelve el valor del texto mas repetido incorporado a la lista de valores de candidatos | Ejemplo: CandidatoPromover Devuelve: MAYO 2018 |
CandidatoPromover (OcurrenciasMinimas) | Usando esta regla solo devolverá un valor si el mismo texto fue leído al menos tantas veces como las indicadas en la variable OcurrenciasMinimas. | Ejemplo: CargarTodoTextoReconocido ConservarMascara (NN-NNNNNNNN-N) CandidatoProponer CargarTodoTextoReconocido ConservarDesde (CUIT:) ConservarHastaSaltoDeLinea CandidatoProponer CandidatoPromover(2) |
Reglas de Limpieza de campos - Campos Captika
Durante la configuración de reglas puede guardarse y recuperarse valores de campos de Captika, para lo cual pueden utilizarse las siguientes reglas
|
| Reglas de Candidatos |
Reglas disponibles | Funcionalidad | Configuración y ejemplos |
---|---|---|
CampoSetear (NombreCampo) | Esta regla permite setear el valor de un campo de Captika con el valor del texto limpiado hasta el momento de ejecución de la regla |
|
CampoSetear (NombreCampo,ValorCampo) | Esta regla permite setear el valor de un campo de Captika durante el transcurso de la ejecución de reglas, permitiendo de esta forma en una sola ejecución de reglas capturar varios campos o bien almacenar datos temporales para ser usados posteriormente en otras reglas. |
|
CampoRecuperar (NombreCampo) | Mediante esta regla se podrá recuperar el valor de un campo del documento/pagina para ser utilizado y procesados (o limpiado) por las subsiguientes reglas. |
|
CampoExtraerDatosConTemplate (sConfigName,sTemplateName,sFieldName) | Permite extraer y datos y setearlos en un campo de Captika ejecutando un template. | Parametros: sConfigName Nombre del Set de Configuración a utilizar para extraer el valor del campo sTemplateName Nombre del Template de configuración a utilizar para extraer el valor de un campo sFieldName Nombre del campo del template que se desea extraer y setear en el campo |
Reglas de Limpieza de campos - Lógicas
El módulo de reglas brinda varias reglas logicas que permiten detener el procesamiento, cancelarlo, o realizar ejecuciones condicionales
|
| Reglas de limpieza - Logicas |
FinalizarSiLargo (Numero) | Detiene el procesamiento de reglas de limpieza si el resultado de la limpieza tiene un largo igual al informado | Ejemplo: FinalizarSiLargo(11) Resultado: Toma como valor Factura: 805523 (y deja de procesar reglas posteriores) |
---|---|---|
FinalizarSiLargoEntoncesDevolver (Numero,TextoDevolver) | Detiene el procesamiento de reglas de limpieza si el resultado de la limpieza tiene un largo igual al informado, pero setea el texto que será fijado al campo en lo informado en el parametro TextoDevolver | Ejemplo: FinalizarSiLargoEntoncesDevolver (11,FACTURA) Resultado: FACTURA (y deja de procesar reglas posteriores) |
FinalizarSiLike (TextoLike) | Detiene el procesamiento de reglas de limpieza si el texto reconocido es similar al Texto informado | Ejemplo: FinalizarSiLike(???????: NNNNNN) Resultado: Toma como valor Factura: 805523 (y deja de procesar reglas posteriores) |
FinalizarSiLikeEntoncesDevolver (TextoLike,TextoDevolver) | Detiene el procesamiento de reglas de limpieza si el texto reconocido es similar al Texto informado, pero setea el texto que será fijado al campo en lo informado en el parametro TextoDevolver | Ejemplo: FinalizarSiLikeEntoncesDevolver (???????: NNNNNN,FACTURA) Resultado: FACTURA (y deja de procesar reglas posteriores) |
FinalizarSiNoNulo | Detiene el procesamiento si el texto limpiado no es nulo |
|
FinalizarSiCampoNoNulo (CaptikaFieldName) | Detiene el procesamiento si el valor del campo de Captika informado no es nulo. Y al mismo tiempo deja el valor del campo indicado como texto resultante. |
|
FinalizarSiCampoValorEs (CaptikaFieldName, CaptikaFieldValue) | Detiene el procesamiento si el valor del campo de Captika informado tiene el valor informado en la variable CaptikaFieldValue |
|
Si (Expression1=Expression2) / Si (Expression1<>Expression2) / SiFin | Estas reglas permitirán ejecutar las reglas posteriores si se cumple la expresión configurada. La ejecución de las reglas posteriores solo se ejecutara hasta tanto se ejecute la regla SiFin | If (TextoReconocido=Valor(Hello world!)) Si el texto reconocido hasta el momento es igual a Hello world entonces ejecutara todas las reglas subsiguientes hasta detectar el IfEnd |
Cancelar | Detiene la ejecución de reglas |
|
Reglas de Limpieza de campos - CargarTexto
Durante la configuración de reglas puede ser requerido volver recacargar el texto e inclusive intentar nuevas configuraciones de extracción de datos. El siguiente cuadro muestra todas las posibilidades de configuración disponibles:
|
| Reglas de cargas de datos |
Reglas disponibles | Funcionalidad | Configuración y ejemplos |
---|---|---|
BorrarTodo | Borrar todo el texto reconocido |
|
CargarTextoPagina | Recupera todo el texto reconocido de la página utilizando la configuración establecida para extracción definida para el campo, como ser zonas de extracción, tipos de captura (PDFLayer o OCR) e idioma. | Ejemplo: CargarTextoPagina Recarga nuevamente el texto capturado antes de ser limpiado por reglas anteriores. |
CargarTextoPagina (OCRTipo,OCRIdioma,Coordenadas) | Recupera todo el texto reconocido de la pagina pero con nuevas configuraciones de OCR o PDF | Se configura mediante los siguientes parámetros: OCRTipo (Tipo de captura) 1-OCR (Pagina rotada con segmentación automática)
3-OCR (Pagina con segmentación automática)
PDFSmartLayerSorted+OCR (Intentar primero leer capa de PDF y si no se encuentra hacer 1-OCR)
OCRIdioma (Lenguaje) spa Español
eng Inglés
Coordenadas Per|1|1|10000|10000 (coordenadas de captura escaladas a 10,000 tanto en lo alto como en lo ancho. Los componentes son los siguientes Per|desdeX|desdeY|LargoX|LargoY -solo requerida para OCRs)
Fix|1|1|10000|10000 (coordenadas de captura fijas sin escalamiento desdeX,desdeY,LargoX,LargoY -solo requerida para OCRs)
Ejempos: CargarTextoPagina (1-OCR,spa) Vuelve a capturar los datos usando 1-OCR (página segmentada con rotación automática de texto y ajuste a diccionario español) CargarTextoPagina (1-OCR,spa,Per|1|1|1000|1000) Vuelve a capturar los datos usando 1-OCR (página segmentada de texto con ajuste a diccionario de español y tomando el 10% superior del documento) |
CargarTextoPaginaProxima (OCRTipo,OCRIdioma,Coordenadas) | Recupera todo el texto reconocido de la página siguiente (no funciona en Configuraciones OnCapture ya que el reconocimiento se realiza a medida que se captura cada una de las pantallas). En caso que sea la última página de un documento devuelve vacío. | Ejemplo: CargarTextoPaginaProxima(1-OCR,spa,Per|1|1|10000|10000) Carga y extrae el texto completo de la pagina próxima a la actual |
CargarTextoPaginaProximaSumar (OCRTipo,OCRIdioma,Coordenadas) | Recupera todo el texto reconocido de la próxima página y lo adiciona al texto reconocido en la pagina actual (Fusionando ambos textos). Es útil para el reconocimiento y extracción de datos que pueden extenderse en varias páginas. | Ejemplo: CargarTextoPaginaProximaSumar(1-OCR,spa) Captura los datos de la pagina próxima usando 1-OCR (página segmentada con rotación automática de texto y ajuste a diccionario español) y lo adiciona al texto reconocido de la pagina actual |
CargarTextoPaginaPrevia (OCRType,OCRLang,Coordinadas) | Recupera todo el texto reconocido de la página anterior. En caso que sea la primer página de un documento devuelve vacío. | Ejemplo: CargarTextoPaginaPrevia (1-OCR,spa,Per|1|1|10000|10000) Carga y extrae el texto completo de la página anterior a la actual. |
CargarTextoPaginaPreviaSumar (OCRTipo,OCRIdioma,Coordenadas) | Recupera todo el texto reconocido de la próxima anterior y lo adiciona al texto reconocido en la pagina actual (Fusionando ambos textos). Es útil para el reconocimiento y extracción de datos que pueden extenderse en varias páginas. | Ejemplo: CargarTextoPaginaPreviaSumar(1-OCR,spa) Captura los datos de la pagina anterior usando 1-OCR (página segmentada con rotación automática de texto y ajuste a diccionario español) y lo adiciona al texto reconocido de la pagina actual |
CargarTextoDocumentoCompleto (OCRTipo,OCRIdioma,Coordenadas) | Recupera todo el texto reconocido de todas las paginas del documento y las fusiona | Ejemplo: CargarTextoPaginaPreviaSumar(1-OCR,spa) Captura los datos de todas las paginas del documento usando 1-OCR (página segmentada con rotación automática de texto y ajuste a diccionario español) |
SetearCapaPDFConNuevoOCR (OCRTipo,OCRIdioma,Coordenadas) | Algunos PDFs pueden venir con capas de texto que no tengan alto nivel de reconocimiento de OCR e incluyan fallas de muchos caracteres. Para resolver estos casos podemos necesitar que Captika realice una lectura de OCR con su motor propio para reemplazar la capa provista por el PDF original por el OCR realizado por Captika. Una vez aplicado esta lectura no podrá revertirse, es decir todas las posteriores consultas que se hagan sobre la página al PDFLayer devolverán el resultado de OCR de Captika. Esto no afectará la estructura del PDF físico que continuará teniendo su capa de texto original. Solo afectara en la ejecución de reglas y lecturas que haga Captika sobre esa página. | Ejemplo: SetearCapaPDFConNuevoOCR (1-OCR,spa) Realiza un OCR del tipo 1-OCR (página segmentada con rotación automática de texto y ajuste a diccionario español) y remplaza la capa de texto (solo para la ejecucion de reglas de limpieza y extracción) |
Reglas de Limpieza de campos - Ejecuciones
Durante la configuración de reglas puede ejecutarse Scripts de VB o recorrer nuevamente ejecuciones de Templates de Reconocimiento. Estas son las opciones
Reglas de ejecuciones |
|
|
Reglas disponibles | Funcionalidad | Configuración y ejemplos |
---|---|---|
EjecutarReconocimientoDeTemplate (NombreSetConfiguración) | Ejecuta todos los templates de un Set de Configuración |
|
EjecutarReconocimientoDeTemplates (EtapaDeReconocimiento,ListaExclusionConfiguraciones) | Ejecuta todos los tempates de una etapa de reconocimiento (OnCapture,OnPublish) | Los parametros son EtapaDeReconocimiento OnCapture
OnPublish
ListaExclusionConfiguraciones Nombre de todas las configuraciones que se desean excluir de la etapa seleccionada separada por pipes
|
EjecutarScripting | Ejecuta Scripting pasandole al mismo el texto que se posee limpiado hasta el momento de la regla |
|