No puedo descargar una pág web ni como html ni imprimirla como pdf

Foro referente al sistema operativo Windows 10
Atenea
Usuario topedesquiciao
Usuario topedesquiciao
Mensajes: 94
Registrado: 02 Feb 2022, 14:41

No puedo descargar una pág web ni como html ni imprimirla como pdf

Mensaje por Atenea »

Hola,

Normalmente cuándo quiero guardar una información que veo en una página web la guardo en pdf fácilmente pero en este momento estoy tratando de guardar la página [Enlace externo eliminado para invitados] y no he podido.

La impresión es del inicio de la página por lo que no me vale y si la descargo como html después no se me abre. Por eso pido algún consejo para poder guardarla y entender el por qué no se puede. Es información pública asique descarto que haya alguna traba para impedirlo.

Gracias. Un saludo

Avatar de Usuario
pako
Usuario Bill Gates
Usuario Bill Gates
Mensajes: 2271
Registrado: 08 Jun 2018, 19:40

Re: No puedo descargar una pág web ni como html ni imprimirla como pdf

Mensaje por pako »

Hola,

No se puede guardar como página html, te dará el error:

Application error: a client-side exception has occurred (see the browser console for more information).

Pasa porque esa web usa muchos scripts javascript, alguno de ellos se conecta contra un servidor externo y comprueba el origen de donde se encuentra el original, ve que no está en el dominio permitido y da error. Son políticas de seguridad.

En este caso este es uno de los errores que te da:

Solicitud desde otro origen bloqueada: la política de mismo origen impide leer el recurso remoto en file:///LM%20Studio%20-%20Discover,%20download,%20and%20run%20local%20LLMs_files/vcd15cbe7772f49c399c6a5bab22c1241717689176015 (razón: la solicitud CORS no es http).

En Firefox, abre el archivo que descargaste, das a la tecla F12 para sacar las opciones de desarrollador.
Verás una barra de menú abajo con Inspector, Consola, Depurador, Red, etc. justo a la derecha del todo te sale un circulo rojo con el número de errores. Si pulsas en él, te salen abajo todos los errores que tiene explicados.

Lo de guardarla en PDF no se porque no te funciona, usas un plugin externo para el navegador para guardar páginas webs?

Saludos
Si has encontrado aquí la ayuda que esperabas (o incluso si no ha sido así ;) ), ayúdanos a mantener el foro con un pequeño donativo.
¡Muchas gracias!

Atenea
Usuario topedesquiciao
Usuario topedesquiciao
Mensajes: 94
Registrado: 02 Feb 2022, 14:41

Re: No puedo descargar una pág web ni como html ni imprimirla como pdf

Mensaje por Atenea »

Hola,

No entiendo lo de medida de seguridad aplicable a guardar una web que es pública ya que eso debería pasar en todas y lo he hecho muchísimas veces y sin problema. Uso esa manera de guardar una página cuándo tiene un área de peguntas donde al ver una se oculta la otra. Como guardándola en html se ejecuta JavaScript las puedo revisar a todas estando guardada.

En pdf se guarda pero solo la parte superior de la página, la visible al momento de guardarla y no toda. He probado con extensiones para descargar pdf y guardar imprimiendo desde el mismo navegador y sucede lo mismo.

En las opciones de desarrollador, ¿puedo cambiar algo que me sirva para esto?

Gracias. Un saludo

Avatar de Usuario
pako
Usuario Bill Gates
Usuario Bill Gates
Mensajes: 2271
Registrado: 08 Jun 2018, 19:40

Re: No puedo descargar una pág web ni como html ni imprimirla como pdf

Mensaje por pako »

Hola,

Primeramente, que una web sea publica no significa que se pueda copiar, la mayoría de veces no hay problemas, otras veces meten scripts para que no se pueda dar al botón derecho del ratón para que no salga la opción de copiar al seleccionar un texto, otras deja copiar el texto pero al pegarlo te pone además del texto que copiaste otro texto seguido extra con la url de donde copiaste el texto, otras encriptan directamente todo el código fuente, etc.
Los que lo hacen es porque están hartos que se aprovechen de su trabajo.

Intento explicarte la medida de seguridad de otra manera:

Imagina que ForosWindows.Com se conecta a una segunda página web externa donde hay una API para obtener información y mostrarla directamente en ForosWindows.Com

En esa segunda página hay que contratar el servicio y pagar una mensualidad, ellos comprueban que la licencia esta asociada al dominio ForosWindows.Com con un script que te hacen poner dentro de ForosWindows.Com

El script comprueba con el código que se ejecuta desde ForosWindows.Com y funciona, deja acceso a los datos externos.
Si se guarda la web en local, el script no detecta el dominio porque se ejecuta desde un ordenador en local, con lo cual no deja el acceso a los datos.

Entendido eso, lo que hay que comprender que no es ForosWindows.Com quien tiene esa política de seguridad, la tiene la otra web externa.

En las opciones de desarrollador no hay que hacer nada, era solo por si querías ver que esa web usa muchos scripts y además por si querías ver los errores que muestra de seguridad al ejecutarse desde local.

Saludos
Si has encontrado aquí la ayuda que esperabas (o incluso si no ha sido así ;) ), ayúdanos a mantener el foro con un pequeño donativo.
¡Muchas gracias!

Atenea
Usuario topedesquiciao
Usuario topedesquiciao
Mensajes: 94
Registrado: 02 Feb 2022, 14:41

Re: No puedo descargar una pág web ni como html ni imprimirla como pdf

Mensaje por Atenea »

Hola,

Me doy cuenta a donde apuntas y a que seguridad te referías. Alguna vez he tenido que desactivar el JavaScript del navegador para ver la pág guardada. Ha de ser por eso que al no detectar el dominio no se me mostraba el contenido. No sabía porque pasaba eso.

Vale, pero entonces ¿quiere decir que no hay forma de guardar una página web que sea como la del ejemplo?

Si te fijas en esa página, está en 2 partes: una superior que es una franja y que siempre permanece visible y debajo la página propiamente dicha. Se me ocurre que ese podría ser el motivo de por qué esta página no se guarda apropiadamente. Si así fuera ¿Cómo podría descargar la parte de debajo de esa franja? Todas las herramientas para guardarla toman todo y acá necesitaría una parte.

Un saludo

Avatar de Usuario
pako
Usuario Bill Gates
Usuario Bill Gates
Mensajes: 2271
Registrado: 08 Jun 2018, 19:40

Re: No puedo descargar una pág web ni como html ni imprimirla como pdf

Mensaje por pako »

Hola,

Al no entender como trabaja javascript, el css y cosas relacionadas con la programación de páginas webs lo enfocas de una manera que no es la correcta.

Cuando una página web lleva javascript y se pide al servidor, el servidor manda la página al usuario para que la vea en su navegador.
Ese javascript se ejecuta en el lado del cliente, eso significa que se ejecuta en tu navegador web una vez que llego el javascript que hay dentro de la página.

Si el servidor te manda un archivo html y su diseño en un archivo css, tu navegador ya muestra la página correcta y la ves bien.
Pero si esa misma página tiene un archivo javascript que ademas carga otra parte del diseño, hasta que tu navegador no ejecute ese javascript no vas a poder ver esa otra parte del diseño. Por eso se dice que el javascript es un lenguaje de programación que se ejecuta del lado del cliente y no del servidor.

Siguiendo el mismo ejemplo anterior, si un programa que captura páginas en PDF no está preparado para ejecutar ese javascript, va a capturar en pdf solo la primera parte del diseño, la segunda parte que se genera desde el javascript no la va a capturar. Y se va a ver en el PDF como que no la capturo bien.

No digo que la página que dices sea así, es un ejemplo para que entiendas bien la parte del javascript, para ahora contestarte cosas que preguntas.

**********

Dices que algunas páginas guardadas al desactivar el javascript funcionan.
Normalmente, el programador empieza por un código javascript que es para detectar si el usuario tiene activado el javascript o no, que no lo tiene le avisa de que lo active con un mensaje o si no es realmente necesario el javascript, le permite ver la página pero sin ese extra que haga el javascript.
Depende mucho del criterio del programar y de si ese javascript es necesario o no.

Yo no digo que no se pueda guardar la página como preguntas, tocaría probar las distintas extensiones que hay de exportar a PDF, a ver si alguna de ellas si lo hace correctamente, yo no las uso y ni idea, solo acabo de instalar una ahora mismo para Firefox y no lo hace bien. Lo mismo si hay algún programa de terceros que no lo haga como extensión de un navegador y lo haga el solo funcione, siempre que ejecute el javascript, ni idea si existen.

Tu último párrafo te equivocas.
La página no tiene dos partes como tal, es lo mismo que va seguido. Lo que pasa es que al aplicar el diseño de la hoja de estilos (.css), dice que esa parte de arriba (cabecera del header) debe quedar fija en vez de que suba como hace todo lo demás, le aplica una propiedad fixed para fijarlo y listo. Eso no influye en nada a la hora de capturar como PDF.

Yo lo que intentaría es probar distintas extensiones de guardar en PDF a ver si alguna lo hace bien o programas de terceros como comenté y a rezar a ver si hay suerte que alguno lo haga bien.

Es que encima la página de lmstudio que dices, tiene casi 40 scripts distintos, eso son cientos y cientos de líneas de código como para ponerte a indagar a ver que hace cada uno de los javascripts.
Porque no hay un método para anular ese código javascript de alguna manera genérica, cada página web usa su propio código javascript para que haga lo que ellos quieren en su web.

**********

Lo de guardarlo en PDF es para poder editar luego el contenido para poder copiarlo al portapapeles? o lo haces solo por guardarlo visualmente?

Si es visualmente, hay extensiones que te guardan la página como una imagen, no solo la parte que ves, baja hasta el final de la página web y hace la captura desde arriba hasta abajo del todo. Mira:

Imagen

La extensión que use lo hace bien, porque hace la captura una vez que el navegador ya ejecuto el javascript.
La extensión que use también da la opción de pasarlo a PDF, pero eso es de pago. Supongo que genere el PDF a partir de la imagen, así que no creo que funcione muy bien.

Saludos
Si has encontrado aquí la ayuda que esperabas (o incluso si no ha sido así ;) ), ayúdanos a mantener el foro con un pequeño donativo.
¡Muchas gracias!

Atenea
Usuario topedesquiciao
Usuario topedesquiciao
Mensajes: 94
Registrado: 02 Feb 2022, 14:41

Re: No puedo descargar una pág web ni como html ni imprimirla como pdf

Mensaje por Atenea »

Hola,

Muchas gracias por la explicación.

Mi intención al descargar la página es únicamente para verla como la tenía delante en el navegador cuando la guardé. A veces copio partes que me interesan de varias y las pego en Word y así tengo lo que necesito.

La ventaja de la descarga en pdf es que mantiene los enlaces, cosa que si se la imprimo desde el navegador y por más que también sea pdf, no mantiene los enlaces activos.

En el caso de la descarga como imagen, cumple la parte visual pero también pierde los enlaces y la posibilidad de copiar las partes que me valen.

La desventaja de la descarga en pdf es que al no ejecutarse ningún script impide, como en este caso, que pueda abrir las respuestas a las preguntas. Cuándo sucede eso descargo en html y hasta ahora me había funcionado siempre. Podía ver la página con sus enlaces y abrir las respuesta.

En el sitio lmstudio.ai, necesito la descarga en html para poder abrir las respuestas y al no abrirse por los motivos que me has explicado, pregunto cómo puedo hacerlo. Debe haber algún truco para eso.

En fin, quedo a la espera de encontrar cómo puedo hacer en casos así. Un saludo