pdf se traduce en caracteres extraños. Lo mismo si lo convierto a Word Tema Solucionado

Todo lo referente a la informatica, hardware, software... no necesariamente relacionado con Windows
Atenea
Usuario topedesquiciao
Usuario topedesquiciao
Mensajes: 72
Registrado: 02 Feb 2022, 14:41

Re: pdf se traduce en caracteres extraños. Lo mismo si lo convierto a Word

Mensaje por Atenea »

Hola,

Pues sí, estabas en lo cierto. Eres un maestro!

Ya me había despedido pero en base a lo que dices, quería comentar que ayer me pasó lo mismo en una web en inglés. Al abrirla en el navegador era un pdf y al copiar una parte del texto que no entendía y pegarlo en el traductor, salió pegado algo similar a lo que me había pasado en aquel pdf.

Quería confirmar si esto de las 2 tablas y la incrustación de distintas tipografía se da solo en pdfs o podría darse en una web normal o en cualquiera de las aplicaciones de Office.

Como bien dices podría ser un truco para evitar el copy/paste y seguramente se haga por eso y por lo tanto el que se aplique en una página web tendría sentido para evitar el copiado. ¿Es posible?

Un saludo

Avatar de Usuario
pako
Usuario Bill Gates
Usuario Bill Gates
Mensajes: 1908
Registrado: 08 Jun 2018, 19:40

Re: pdf se traduce en caracteres extraños. Lo mismo si lo convierto a Word

Mensaje por pako »

Hola,

De maestro no tengo nada :jaja: pero gracias! :wink:

Viendo que te pasa en más lados y que cuando busqué info ya vi que a más gente le pasa, es porque lo hacen adrede para proteger un poco los datos. También te diré, que lo que suelen hacer es guardarlo como imagen (*.jpg) y luego pasarle el Google Lens para pasar la imagen a texto y de pago usan el programa de Adobe, que ponían que también funciona muy bien para esto.

Hay muchas páginas para reparar PDF para cuando están realmente estropeados, lo más probable es que exista alguna también para quitar este "anti copy" para cuando se hace el copy/paste, porque a priori parece que editando esa segunda tabla y diciéndole que fuente usar debería solucionar el problema.

En páginas webs no se puede hacer y en Office creo que no usan este sistema, ya tienen otras maneras de proteger los archivos, que generalmente no valen para nada, porque mientras sea texto visible de una u otra manera se puede pasar a texto.

En las páginas webs encriptan el texto con javascript, para que asi no se pueda copiar el texto, el problema es que cuando van los spider de los motores de búsqueda como Google tampoco ven el texto de la web, entonces no aparece la web cuando se hace una búsqueda en Google, con los cual la web no consigue visitas.
Así que las webs no encriptan los textos, porque sino no aparecen en los resultados de los buscadores.
Se puede hacer para que a las personas se lo encripte y a los spider de los buscadores que les muestre el texto, pero los buscadores toman esto como que estas haciendo trampas, mostrando a los usuarios una cosa y a los buscadores otra distinta, entonces si lo detectan te quitan de los resultados por tramposo.

Saludos
Si has encontrado aquí la ayuda que esperabas (o incluso si no ha sido así ;) ), ayúdanos a mantener el foro con un pequeño donativo.
¡Muchas gracias!

Atenea
Usuario topedesquiciao
Usuario topedesquiciao
Mensajes: 72
Registrado: 02 Feb 2022, 14:41

Re: pdf se traduce en caracteres extraños. Lo mismo si lo convierto a Word

Mensaje por Atenea »

Hola,

Cuándo me pasó lo que conté al inicio pensé que era una rareza que me estaba pasando y sin embargo resultó ser algo habitual.

Sabiendo ahora lo de las fuentes incrustadas en pdfs y en 2 tablas donde la primera muestra algo pero si se copia es lo que está en la 2da tabla, suena a algo ilógico, sin sentido. La única explicación es que sea justamente para impedir el copiar y pegar y también el traducirla.

Leyendo la web del foro de adobe en ingles que me enviaste, se me ocurrió probar en editar el pdf que te envié para que reconozca los caracteres ya que si son visibles debería funcionar del mismo modo que reconoce el texto en una imagen y devuelve otro pdf con texto puro.

Lo hice y FUNCIONÓ!!. Ahora lo que copio se pega tal cual. Claro que ese archivo no llegaba a 1 MB y ahora tiene 18,4 MB reducido y el max de los traductores online es 10 MB asique no he podido traducirlo, pero eso ya es otro tema.

Por lo tanto he podido solucionar el problema origen de este hilo. Muchas gracias!!

Avatar de Usuario
pako
Usuario Bill Gates
Usuario Bill Gates
Mensajes: 1908
Registrado: 08 Jun 2018, 19:40

Re: pdf se traduce en caracteres extraños. Lo mismo si lo convierto a Word

Mensaje por pako »

Hola,

De nada!

Creo que lo que hiciste es lo que te dije al principio del tema, que al darle a editar te permitía usar el OCR, que era lo de reconocer texto para tener así un texto editable. Esto si esta "limpio" el PDF no creo que tengas problemas, pero como sea un pdf escaneado que mete sombras en las hojas y el texto no es tan nítido, puede que te cambie algunas palabras.

La otra pega de los 10MB, tienes muchas paginas online para partir PDFs, le dices el numero de paginas que quieras que tenga y te los separa.
El que tienes si le partes a la mitad, te crearía dos archivos de 9.2 MB y ya podrías hacerlo.

Saludos
Si has encontrado aquí la ayuda que esperabas (o incluso si no ha sido así ;) ), ayúdanos a mantener el foro con un pequeño donativo.
¡Muchas gracias!

Atenea
Usuario topedesquiciao
Usuario topedesquiciao
Mensajes: 72
Registrado: 02 Feb 2022, 14:41

Re: pdf se traduce en caracteres extraños. Lo mismo si lo convierto a Word

Mensaje por Atenea »

Hola,
Voy a hacer lo que dices de partir el pdf en 2 partes para poderlo traducir, pero lo importante es que ahora sé que editando esos pdfs se los puede manejar perfectamente. Hasta ahora nunca me había topado con algo así.
Vale, podemos entonces cerrar el hilo y darlo como solucionado. Un saludo!