De qué forma traducirían un PDF escaneado? Con qué proceso?
Printable View
De qué forma traducirían un PDF escaneado? Con qué proceso?
Dependería de la calidad y de cuanto puede extraerse. Habría que ver cual es el OCR indicado. Yo siempre me inclino por el Abby Fine Reader. En caso que la extracción no sea óptima optaría por una transcripción para luego puedo utilizar una herramienta de traducción asistida. Facilitando la labor de traducción y edición. En otros casos ya guardando el PDF como Word (función muy util en el Adobe Acrobat Professional) alcanza.
A decir verdad, la más directa es la de traducir mentalmente y transcribir directamente la traducción. Obviamente que pierdes la posibilidad de usar un CAT Tool y apalancarte en el uso de una memoria y un glosario.
Otra solución de mas alta tecnología es la que utiliza una aplicación para reconocimiento de voz. En ese caso, puedes traducir mentalmente y grabar el texto en un procesador mientras le hablas al micrófono. Esta técnica puede llegar a hacerse transcribiendo el source y luego utilizando un CAT Tool para la traducción. Lamentablemente, estas aplicaciones son mas efectivas luego de crear tu propio "perfil", por lo que su uso conlleva ciertas restricciones.
Yo me inclino por la primera opción de gentle, es decir, traducir mentalmente y transcribir la traducción. Sí recomiendo, en caso de que el documento presente tablas, cuadros, etc., pedirle ayuda a un experto en DTP para que nos recree las tablas y cuadros, ello ayudaría a agilizar el trabajo del traductor y obtener un documento final prolijo y lo más fiel posible al documento original.
Estoy de acuerdo con FedericoP. Obviamente depende del caso. En primer lugar, intentaría convertirlo con algún OCR como el Abby. En caso de que la conversión salga bien, se puede hacer un pre - DTP y pre-Editing para poder traducirlo directamente usando una CAT Tool y de esta manera, nos beneficiaríamos de la memoria. En muchos casos, realizando el pre DTP y el pre Edigting, no hace falta realizar un DTP final ya que el archivo queda prolijo.
En caso de que el PDF tenga muchas partes escritas a mano o mal escaneadas, siempre es mejor transcribir de cero en un Word en texto plano y luego darle formato en DTP.
Aclaro que, para mi primera opción, tienen que haber evaluado lo suficientemente el contenido como para determinar que no va a existir tanta ventaja en el hecho de crear y trabajar con una memoria.
Me han tocado proyectos que eran contratos escaneados, muy similares y en los que claramente convenía convertirlos con un OCR (tipo Abbyy) y aprovechar el "leverage" que provee un CAT Tool.
Dicho sea de paso, la delicia de estos proyectos legales la constituye los millares de sellos (frecuentemente ilegibles), firmas, fragmentos manuscritos y...¡marcas de agua de las hojas! que obstaculizan el trabajo del mejor de los OCRs. :mad:
Claro, creo que lo que definiría el proceso serían algunas de estas variantes:
- driver del cliente: costo? tiempo?
- complejidad del escaneo: si se convierte más o menos bien en un OCR, bien, se puede emprolijar la conversión de manera tal que el traductor pueda usar una herramienta de traducción. Se convierte espantoso? Creo que en estos casos, es mejor "a la vieja usanza", como comentaban gentle y barbaram, traducir directamente en un documento nuevo de cero, porque costo beneficio, si el cliente no va a volver a mandar más documentos con contenido similiar, o si este es el único documento que manda (es decir que no hay otro documento muy similar) no tiene sentido incurrir en costos y tiempo extra para preparar un archivo editable. Se traduce de cero y listo. Se ahorra tiempo y costos.
También coincido con barbaram, que cuando hay tablas (por ejemplo, analíticos, o facturas, etc) suelo hacer el cuadro vacío, para que el traductor ya tenga facilitada esa tarea y vaya insertando la traducción en la tabla ya hecha de antemano.
Todo esto hay que evaluarlo en el momento que nos llega el material, y ahí entonces decidir el proceso a trabajar.
FedericoP, recordá que para guardarlo directamente a Word desde el PDF el archivo debió ser creado en algún programa (por ejemplo Word, Illustrator, etc.) y no escaneado como imagen. En esos casos guardarlo como Word sólo nos daría una imagen insertada en una página de Word. ;)
Sí, para los scaneados, lo mejor es usar un OCR, y hasta incluso a veces es mejor ir convirtiendo en páginas separadas, por ejemplo, todas las de texto plano juntas, las tablas por separado, etc. Y de más está decir que siempre es mejor setear el OCR en el idioma del escaneado, así lo levanta mejor.
Alguien conoce algún otro tip? así vamos mejorando estos tortuosos proyectos? :)
Un punto especial a tener en cuenta, ya que muchas veces se trata de proyectos legales, son las ventajas/desventajas en el tratamiento de los nombres y los números. Ya sabemos lo importante que es el tema, sobre todo cuando se trata de traducciones certificadas.
Ahí está el dilema...¿dónde es mayor la posibilidad de error, en la transcripción o en el "escaneado" asociado a una mala revisión que lleva a que typos no sean corregidos porque no se va directamente al PDF original y, por el contrario, se confía en el editable escaneado?
Gentle, creo que habría que convertir y ver el resultado de la conversión y ahí decidir. El riesgo del error está en ambas opciones, pero a veces el convertido sale bastante bien, por lo que me inclinaría por esta opción. A veces, el resultado es un lío, en donde es más trabajo corregir que hacer de cero. De todos modos, creo que estas cosas las tienen ver siempre por lo menos 2 personas. Idealmente 3 si es algo para certificar.
Para documentos escaneados creo que lo mejor es probar una conversión con Abby y evaluar el resultado. Si el documento escaneado sale bien y sólo requiere arreglos mínimos, lo mejor es arreglarlo (corregir letras mal convertidas, arreglar tablas, etc.) y usar herramientas de traducción para traducirlo.
Si el documento source escaneado requiere mucho tiempo de corrección, se va a incrementar el costo del proyecto y por lo tanto deja de ser conveniente. Además, aumenta la probabilidad de error ya que con la corrección de errores manualmente casi siempre quedan imperfecciones. En ese caso es mejor traducir directamente desde un pdf en un archivo de Word, o sea, se lee el pdf y se inserta la traducción en un archivo de Word.
En estos casos, en mi experiencia, las transcripciones son las más confiables, ya que a veces el (mal) estado de los archivos escaneados hace casi inútil una conversión con algún programa. Por supuesto, este es el proceso más largo, pero nos aseguramos (si la transcripción fue hecha debidamente) que toda la información necesaria va a estar disponible para editar, y evitamos posibles idas y vueltas con el editor a la hora de hacer DTP. A veces el camino más largo resulta ser el más corto. :p
Probaron guardar el PDF como archivo de imagen, mejorarle el contraste y luego pasarlo por Abby. Un par de veces lo he hecho con mejor resultado. He llegado al punto de abrirlo con Paint y "borrarle" líneas, sellos, texto manuscrito...en fin, cosas que pueden obstaculizar el escaneo. Es cierto que Abby también permite hacerlo simplemente seleccionando los campos, pero no siempre se puede utilizar (no, por ejemplo, con esas líneas negras tediosas que cruzan los párrafos de arriba a abajo, y fruto de un pobre escaneo de algún documento con algún doblez).
A veces antes de convertir un pdf escaneado como imagen, una buena opcion es pasarlo por Ps, y aumentar su constraste, asi lo toma mejor!
La opción de pasarlo por Ps es muy útil, así como mencionaron antes el establecer página por página cada sector de escaneo con el programa a convertir (por ejemplo Abby); es decir, establecer sectores de tablas (y no sólo establecer el sector sino establecer la cantidad de filas y columnas de ser posible), imágenes, texto, etc. De esta forma tardamos más en tener un documento editable pero con suerte será mucho más provechoso a la hora de traducirlo y editarlo.