No puedo descargar una pág web ni como html ni imprimirla como pdf

Foro referente al sistema operativo Windows 10
Atenea
Usuario topedesquiciao
Usuario topedesquiciao
Mensajes: 95
Registrado: 02 Feb 2022, 14:41

No puedo descargar una pág web ni como html ni imprimirla como pdf

Mensaje por Atenea »

Hola,

Normalmente cuándo quiero guardar una información que veo en una página web la guardo en pdf fácilmente pero en este momento estoy tratando de guardar la página [Enlace externo eliminado para invitados] y no he podido.

La impresión es del inicio de la página por lo que no me vale y si la descargo como html después no se me abre. Por eso pido algún consejo para poder guardarla y entender el por qué no se puede. Es información pública asique descarto que haya alguna traba para impedirlo.

Gracias. Un saludo

Avatar de Usuario
pako
Usuario Bill Gates
Usuario Bill Gates
Mensajes: 2272
Registrado: 08 Jun 2018, 19:40

Re: No puedo descargar una pág web ni como html ni imprimirla como pdf

Mensaje por pako »

Hola,

No se puede guardar como página html, te dará el error:

Application error: a client-side exception has occurred (see the browser console for more information).

Pasa porque esa web usa muchos scripts javascript, alguno de ellos se conecta contra un servidor externo y comprueba el origen de donde se encuentra el original, ve que no está en el dominio permitido y da error. Son políticas de seguridad.

En este caso este es uno de los errores que te da:

Solicitud desde otro origen bloqueada: la política de mismo origen impide leer el recurso remoto en file:///LM%20Studio%20-%20Discover,%20download,%20and%20run%20local%20LLMs_files/vcd15cbe7772f49c399c6a5bab22c1241717689176015 (razón: la solicitud CORS no es http).

En Firefox, abre el archivo que descargaste, das a la tecla F12 para sacar las opciones de desarrollador.
Verás una barra de menú abajo con Inspector, Consola, Depurador, Red, etc. justo a la derecha del todo te sale un circulo rojo con el número de errores. Si pulsas en él, te salen abajo todos los errores que tiene explicados.

Lo de guardarla en PDF no se porque no te funciona, usas un plugin externo para el navegador para guardar páginas webs?

Saludos
Si has encontrado aquí la ayuda que esperabas (o incluso si no ha sido así ;) ), ayúdanos a mantener el foro con un pequeño donativo.
¡Muchas gracias!

Atenea
Usuario topedesquiciao
Usuario topedesquiciao
Mensajes: 95
Registrado: 02 Feb 2022, 14:41

Re: No puedo descargar una pág web ni como html ni imprimirla como pdf

Mensaje por Atenea »

Hola,

No entiendo lo de medida de seguridad aplicable a guardar una web que es pública ya que eso debería pasar en todas y lo he hecho muchísimas veces y sin problema. Uso esa manera de guardar una página cuándo tiene un área de peguntas donde al ver una se oculta la otra. Como guardándola en html se ejecuta JavaScript las puedo revisar a todas estando guardada.

En pdf se guarda pero solo la parte superior de la página, la visible al momento de guardarla y no toda. He probado con extensiones para descargar pdf y guardar imprimiendo desde el mismo navegador y sucede lo mismo.

En las opciones de desarrollador, ¿puedo cambiar algo que me sirva para esto?

Gracias. Un saludo

Avatar de Usuario
pako
Usuario Bill Gates
Usuario Bill Gates
Mensajes: 2272
Registrado: 08 Jun 2018, 19:40

Re: No puedo descargar una pág web ni como html ni imprimirla como pdf

Mensaje por pako »

Hola,

Primeramente, que una web sea publica no significa que se pueda copiar, la mayoría de veces no hay problemas, otras veces meten scripts para que no se pueda dar al botón derecho del ratón para que no salga la opción de copiar al seleccionar un texto, otras deja copiar el texto pero al pegarlo te pone además del texto que copiaste otro texto seguido extra con la url de donde copiaste el texto, otras encriptan directamente todo el código fuente, etc.
Los que lo hacen es porque están hartos que se aprovechen de su trabajo.

Intento explicarte la medida de seguridad de otra manera:

Imagina que ForosWindows.Com se conecta a una segunda página web externa donde hay una API para obtener información y mostrarla directamente en ForosWindows.Com

En esa segunda página hay que contratar el servicio y pagar una mensualidad, ellos comprueban que la licencia esta asociada al dominio ForosWindows.Com con un script que te hacen poner dentro de ForosWindows.Com

El script comprueba con el código que se ejecuta desde ForosWindows.Com y funciona, deja acceso a los datos externos.
Si se guarda la web en local, el script no detecta el dominio porque se ejecuta desde un ordenador en local, con lo cual no deja el acceso a los datos.

Entendido eso, lo que hay que comprender que no es ForosWindows.Com quien tiene esa política de seguridad, la tiene la otra web externa.

En las opciones de desarrollador no hay que hacer nada, era solo por si querías ver que esa web usa muchos scripts y además por si querías ver los errores que muestra de seguridad al ejecutarse desde local.

Saludos
Si has encontrado aquí la ayuda que esperabas (o incluso si no ha sido así ;) ), ayúdanos a mantener el foro con un pequeño donativo.
¡Muchas gracias!

Atenea
Usuario topedesquiciao
Usuario topedesquiciao
Mensajes: 95
Registrado: 02 Feb 2022, 14:41

Re: No puedo descargar una pág web ni como html ni imprimirla como pdf

Mensaje por Atenea »

Hola,

Me doy cuenta a donde apuntas y a que seguridad te referías. Alguna vez he tenido que desactivar el JavaScript del navegador para ver la pág guardada. Ha de ser por eso que al no detectar el dominio no se me mostraba el contenido. No sabía porque pasaba eso.

Vale, pero entonces ¿quiere decir que no hay forma de guardar una página web que sea como la del ejemplo?

Si te fijas en esa página, está en 2 partes: una superior que es una franja y que siempre permanece visible y debajo la página propiamente dicha. Se me ocurre que ese podría ser el motivo de por qué esta página no se guarda apropiadamente. Si así fuera ¿Cómo podría descargar la parte de debajo de esa franja? Todas las herramientas para guardarla toman todo y acá necesitaría una parte.

Un saludo

Avatar de Usuario
pako
Usuario Bill Gates
Usuario Bill Gates
Mensajes: 2272
Registrado: 08 Jun 2018, 19:40

Re: No puedo descargar una pág web ni como html ni imprimirla como pdf

Mensaje por pako »

Hola,

Al no entender como trabaja javascript, el css y cosas relacionadas con la programación de páginas webs lo enfocas de una manera que no es la correcta.

Cuando una página web lleva javascript y se pide al servidor, el servidor manda la página al usuario para que la vea en su navegador.
Ese javascript se ejecuta en el lado del cliente, eso significa que se ejecuta en tu navegador web una vez que llego el javascript que hay dentro de la página.

Si el servidor te manda un archivo html y su diseño en un archivo css, tu navegador ya muestra la página correcta y la ves bien.
Pero si esa misma página tiene un archivo javascript que ademas carga otra parte del diseño, hasta que tu navegador no ejecute ese javascript no vas a poder ver esa otra parte del diseño. Por eso se dice que el javascript es un lenguaje de programación que se ejecuta del lado del cliente y no del servidor.

Siguiendo el mismo ejemplo anterior, si un programa que captura páginas en PDF no está preparado para ejecutar ese javascript, va a capturar en pdf solo la primera parte del diseño, la segunda parte que se genera desde el javascript no la va a capturar. Y se va a ver en el PDF como que no la capturo bien.

No digo que la página que dices sea así, es un ejemplo para que entiendas bien la parte del javascript, para ahora contestarte cosas que preguntas.

**********

Dices que algunas páginas guardadas al desactivar el javascript funcionan.
Normalmente, el programador empieza por un código javascript que es para detectar si el usuario tiene activado el javascript o no, que no lo tiene le avisa de que lo active con un mensaje o si no es realmente necesario el javascript, le permite ver la página pero sin ese extra que haga el javascript.
Depende mucho del criterio del programar y de si ese javascript es necesario o no.

Yo no digo que no se pueda guardar la página como preguntas, tocaría probar las distintas extensiones que hay de exportar a PDF, a ver si alguna de ellas si lo hace correctamente, yo no las uso y ni idea, solo acabo de instalar una ahora mismo para Firefox y no lo hace bien. Lo mismo si hay algún programa de terceros que no lo haga como extensión de un navegador y lo haga el solo funcione, siempre que ejecute el javascript, ni idea si existen.

Tu último párrafo te equivocas.
La página no tiene dos partes como tal, es lo mismo que va seguido. Lo que pasa es que al aplicar el diseño de la hoja de estilos (.css), dice que esa parte de arriba (cabecera del header) debe quedar fija en vez de que suba como hace todo lo demás, le aplica una propiedad fixed para fijarlo y listo. Eso no influye en nada a la hora de capturar como PDF.

Yo lo que intentaría es probar distintas extensiones de guardar en PDF a ver si alguna lo hace bien o programas de terceros como comenté y a rezar a ver si hay suerte que alguno lo haga bien.

Es que encima la página de lmstudio que dices, tiene casi 40 scripts distintos, eso son cientos y cientos de líneas de código como para ponerte a indagar a ver que hace cada uno de los javascripts.
Porque no hay un método para anular ese código javascript de alguna manera genérica, cada página web usa su propio código javascript para que haga lo que ellos quieren en su web.

**********

Lo de guardarlo en PDF es para poder editar luego el contenido para poder copiarlo al portapapeles? o lo haces solo por guardarlo visualmente?

Si es visualmente, hay extensiones que te guardan la página como una imagen, no solo la parte que ves, baja hasta el final de la página web y hace la captura desde arriba hasta abajo del todo. Mira:

Imagen

La extensión que use lo hace bien, porque hace la captura una vez que el navegador ya ejecuto el javascript.
La extensión que use también da la opción de pasarlo a PDF, pero eso es de pago. Supongo que genere el PDF a partir de la imagen, así que no creo que funcione muy bien.

Saludos
Si has encontrado aquí la ayuda que esperabas (o incluso si no ha sido así ;) ), ayúdanos a mantener el foro con un pequeño donativo.
¡Muchas gracias!

Atenea
Usuario topedesquiciao
Usuario topedesquiciao
Mensajes: 95
Registrado: 02 Feb 2022, 14:41

Re: No puedo descargar una pág web ni como html ni imprimirla como pdf

Mensaje por Atenea »

Hola,

Muchas gracias por la explicación.

Mi intención al descargar la página es únicamente para verla como la tenía delante en el navegador cuando la guardé. A veces copio partes que me interesan de varias y las pego en Word y así tengo lo que necesito.

La ventaja de la descarga en pdf es que mantiene los enlaces, cosa que si se la imprimo desde el navegador y por más que también sea pdf, no mantiene los enlaces activos.

En el caso de la descarga como imagen, cumple la parte visual pero también pierde los enlaces y la posibilidad de copiar las partes que me valen.

La desventaja de la descarga en pdf es que al no ejecutarse ningún script impide, como en este caso, que pueda abrir las respuestas a las preguntas. Cuándo sucede eso descargo en html y hasta ahora me había funcionado siempre. Podía ver la página con sus enlaces y abrir las respuesta.

En el sitio lmstudio.ai, necesito la descarga en html para poder abrir las respuestas y al no abrirse por los motivos que me has explicado, pregunto cómo puedo hacerlo. Debe haber algún truco para eso.

En fin, quedo a la espera de encontrar cómo puedo hacer en casos así. Un saludo

Avatar de Usuario
pako
Usuario Bill Gates
Usuario Bill Gates
Mensajes: 2272
Registrado: 08 Jun 2018, 19:40

Re: No puedo descargar una pág web ni como html ni imprimirla como pdf

Mensaje por pako »

Hola,

De nada.

Entiendo el problema de los enlaces y expandir las preguntas frecuentes, pero me temo que no podrás, demasiados javascripts en esa web, tocará esperar a ver si alguien tuvo el mismo problema y logro algo.

Normalmente la gente guarda la página en los marcadores del navegador web, se puede organizar por carpetas y así es fácil encontrar todo. Te permite meter la cuenta de correo para que quede asociado a ella, así se puede acceder desde cualquier dispositivo a los marcadores.

No puedes hacer eso solo para las páginas web que te fallen? así al verlo online siempre tendrás enlaces y las preguntas frecuentes para que se expandan con un clic.
Una vez hayas sacado las partes que te valen, eliminas el marcador.

Lo ideal es que lo hagas con todas y no solo con las que fallen, según los expertos guardar páginas web es inseguro, ya que al bajar la web baja los componentes asociados que no sabes si están infectados o no, si llevan malware o software malicioso, etc. y los scripts que lleven pueden acceder a datos locales, vulnerabilidad de ataques XSS, etc.
Solo hay que guardar las páginas cuando se este seguro que son páginas 100% fiables.

El problema de los marcadores, que no tienes acceso offline, no se si será requisito obligatorio.
Y el otro problema, que si la página desaparece a los 10 años no podrás acceder a los datos, se supone que antes habrás guardado los datos que necesitas.
Si es importante seguirá en la maquina del tiempo [Enlace externo eliminado para invitados]

Saludos
Si has encontrado aquí la ayuda que esperabas (o incluso si no ha sido así ;) ), ayúdanos a mantener el foro con un pequeño donativo.
¡Muchas gracias!

Atenea
Usuario topedesquiciao
Usuario topedesquiciao
Mensajes: 95
Registrado: 02 Feb 2022, 14:41

Re: No puedo descargar una pág web ni como html ni imprimirla como pdf

Mensaje por Atenea »

Hola,

En el asunto concreto de esa página, ante la imposibilidad de una solución más tecnológica, lo resolví copiando y pegando en Word cada pregunta con su respuesta estando online. Eran pocas y ya está lo que necesitaba.

No me gusta lo de guardar en marcadores más que para algo momentáneo porque la gracia de guardar en mi disco la información que sea, es que la guardo según su nombre y también creo varios enlaces directos para poder llegar a ella por otros datos, ya que puede que no recuerde nombres en el futuro pero sí recuerde algo relacionado.

Algunas veces no he guardado algo por no considerarlo necesario o interesante en ese momento y después me arrepentí ya que no fui capaz de llegar a lo que había visto. Por eso guardo mucho y después también elimino mucho guardando a lo sumo alguna referencia. Sin irme del tema solo comento que quise volver al video que vi cuándo asumió como papa Francisco en que de forma casual y rápida dijo que él era Pedro el Romano. Traté de encontrar los videos de aquellos años y ni siquiera pude llegar a los mismos que había visto en ese momento y en YouTube.

Como bien dices, tiene sentido hacerlo en aquellas que me fallan al guardarlas, pero la ventaja de guardarla en mi disco es, como dije antes, poderla encontrar de diferentes maneras. En el marcador tendrá el nombre pero más adelante puede que no recuerde por qué la guardé o que no la relacione y me resulta más cómodo y seguro tener la info guardada y relacionada.

Si existe ese riesgo al guardar las páginas, prefiero asumirlo ya que para eso están los antivirus y similares. Desde siempre guardo las páginas y nunca tuve problemas de efectos nocivos en el sistema. Además muchas después las elimino porque son datos repetidos y no tiene sentido.

El web.archive es genial.

Vale, creo que ya tengo claro lo que se puede y lo que no se puede en relación a mi consulta inicial. Debido a esto he descubierto extensiones para guardar en html que no conocía y que el resultado es muy bueno y nada que ver con guardarlo desde el navegador. Claro que en el caso de la página en cuestión tampoco abría las respuestas.

Muchas gracias por tus explicaciones y sugerencias. Creo que ya está todo dicho asique nos “veremos” en mi próximo conflicto digital. Un saludo