bytes.cat

La wiki d'FP d'informàtica

Eines de l'usuari

Eines del lloc


Barra lateral

ASIX Administració de Sistemes Informàtics i Xarxes
Tots els mòduls del cicle
MP01 Implantació de sistemes operatius
Totes les UFs del modul
MP02 Gestió de bases de dades
Totes les UFs del modul
MP03 Programació bàsica
Totes les UFs del modul
MP04 Llenguatges de marques i sistemes de gestió d'informació
Totes les UFs del modul
MP05 Fonaments de maquinari
Totes les UFs del modul
MP06 Administració de sistemes operatius
Totes les UFs del modul
MP07 Planificació i administració de xarxes
Totes les UFs del modul
MP08 Serveis de xarxa i Internet
Totes les UFs del modul
MP09 Implantació d'aplicacions web
Totes les UFs del modul
MP10 Administració de sistemes gestors de bases de dades
Totes les UFs del modul
MP11 Seguretat i alta disponibilitat
Totes les UFs del modul
MP12 Formació i orientació laboral
Totes les UFs del modul
MP13 Empresa i iniciativa emprenedora
Totes les UFs del modul
MP14 Projecte
Totes les UFs del modul
DAM Desenvolupament d’aplicacions multiplataforma
Tots els mòduls del cicle
MP01 Sistemes informàtics
Totes les UFs del modul
MP02 Bases de dades
Totes les UFs del modul
MP03 Programació bàsica
Totes les UFs del modul
MP04 Llenguatges de marques i sistemes de gestió d'informació
Totes les UFs del modul
MP05 Entorns de desenvolupament
Totes les UFs del modul
MP06 Accés a dades
Totes les UFs del modul
MP07 Desenvolupament d’interfícies
Totes les UFs del modul
MP08 Programació multimèdia i dispositius mòbils
Totes les UFs del modul
MP09 Programació de serveis i processos
Totes les UFs del modul
MP10 Sistemes de gestió empresarial
Totes les UFs del modul
MP11 Formació i orientació laboral
Totes les UFs del modul
MP12 Empresa i iniciativa emprenedora
Totes les UFs del modul
MP13 Projecte de síntesi
Totes les UFs del modul
MPDual Mòdul Dual / Projecte
DAW Desenvolupament d’aplicacions web
Tots els mòduls del cicle
MP01 Sistemes informàtics
Totes les UFs del modul
MP02 Bases de dades
Totes les UFs del modul
MP03 Programació
Totes les UFs del modul
MP04 Llenguatge de marques i sistemes de gestió d’informació
Totes les UFs del modul
MP05 Entorns de desenvolupament
Totes les UFs del modul
MP06 Desenvolupament web en entorn client
Totes les UFs del modul
MP07 Desenvolupament web en entorn servidor
Totes les UFs del modul
MP08 Desplegament d'aplicacions web
Totes les UFs del modul
MP09 Disseny d'interfícies web
Totes les UFs del modul
MP10 Formació i Orientació Laboral
Totes les UFs del modul
MP11 Empresa i iniciativa emprenedora
Totes les UFs del modul
MP12 Projecte de síntesi
Totes les UFs del modul
SMX Sistemes Microinformàtics i Xarxes
Tots els mòduls del cicle
MP01 Muntatge i manteniment d’equips
Totes les UFs del modul
MP02 Sistemes Operatius Monolloc
Totes les UFs del modul
MP03 Aplicacions ofimàtiques
Totes les UFs del modul
MP04 Sistemes operatius en xarxa
Totes les UFs del modul
MP05 Xarxes locals
Totes les UFs del modul
MP06 Seguretat informàtica
Totes les UFs del modul
MP07 Serveis de xarxa
Totes les UFs del modul
MP08 Aplicacions Web
Totes les UFs del modul
MP09 Formació i Orientació Laboral
Totes les UFs del modul
MP10 Empresa i iniciativa emprenedora
Totes les UFs del modul
MP11 Anglès
Totes les UFs del modul
MP12 Síntesi
Totes les UFs del modul
CETI Ciberseguretat en Entorns de les Tecnologies de la Informació
Tots els mòduls del cicle
CiberOT Ciberseguretat en Entorns d'Operació
Tots els mòduls del cicle
webscraping_apache

Aquesta és una revisió antiga del document


Webscraping amb python i capçaleres http d’Apache

Webscraping fa referència a les tècniques per a recuperar dades d'una web de manera automatitzada, i Python és un llenguatge de programació que té llibreries especialitzades que faciliten aquesta tasca.


Descarregar les imatges d’una web

Començarem per un script que es baixa totes les imatges que hi ha una web a partir de la seva url. Aquesta tècnica es pot aplicar per a qualsevol tag html i descarregar altres elements que ens puguin ser d’interès.

Primer, haurem d’instal·lar la llibreria lxml de Python per el tractament d’html.

Comandes:

$ pip install lxml

Collecting lxml
Downloading lxml-4.9.1-cp310-cp310-win_amd64.whl (3.6 MB)
   ---------------------------------------- 3.6/3.6 MB 9.9 MB/s eta 0:00:00
Installing collected packages: lxml
Successfully installed lxml-4.9.1

Script:

import os
import requests
from lxml import html

try:
  url = "https://agora.xtec.cat/iesesteveterradas/general/the-ieti-show-conquereix-terrassa"
  response = requests.get(url)
  parsed_body = html.fromstring(response.text)
  
  # Usem una expressió xpath per a trobar els tags d'imatges
  images_src = parsed_body.xpath("//img/@src")
  num_images = len(images_src)
  print("Trobade(s) " + str(num_images) + " imatge(s)")
  
  # Creem un directori per anar guardant les imatges
  nom_domini = url.replace("https://", "").replace("http://", "").split("/")[0]
  nom_domini = nom_domini.replace(".", "_")
  nom_directori = "imatges_" + nom_domini
  print("Guardant imatges al directori " + nom_directori)
  os.system("mkdir " + nom_directori)
  
  for image in images_src:
      download = False
      if image.startswith("http") and image!=url:
          downloaded_image = requests.get(image)
          download = True
      elif image.startswith("data:image") == False and (url+image)!=url:
          downloaded_image = requests.get(url + image)
          download = True
      #else: 
          # download base64 image
      if download:
          image_file_name_to_save = nom_directori + "/" + image.split("/")[-1]
          print(image_file_name_to_save)
          image_file = open(image_file_name_to_save, "wb")
          image_file.write(downloaded_image.content)
          image_file.close()
          
except Exception as e:
  print(e)
  pass

Sortida:

Trobade(s) 16 imatge(s)
Guardant imatges al directori imatges_agora_xtec_cat
imatges_agora_xtec_cat/013-Premi-03B-rc-1024x682.jpg
imatges_agora_xtec_cat/032-Grup-rc-1024x682.jpg
imatges_agora_xtec_cat/spinner.gif
imatges_agora_xtec_cat/unnamed-3-300x70.png
imatges_agora_xtec_cat/unnamed-1.png
imatges_agora_xtec_cat/unnamed-2.png
imatges_agora_xtec_cat/banner_web_centres-2.png
imatges_agora_xtec_cat/FSE.png
imatges_agora_xtec_cat/logo_gene.png
imatges_agora_xtec_cat/logo_xtec.png

Exercici:

Adapta l’ script per a obtenir tots els enllaços / links (tag <a>) que hi ha en una plana web a partir de la seva url i els guardi en un fitxer o els imprimeixi per pantalla.


Obtenir informació d’imatges

Amb les imatges baixades, mirarem si tenen informacio EXIF i l’extraurem.

L’EXIF és un estàndard que defineix informació específica relacionada amb una imatge capturada per una càmera digital.

Primer, haurem d’instal·lar la llibreria Pillow de Python pel tractament d’imatges.

Comandes:

$ pip install pillow

Collecting pillow
Downloading Pillow-9.2.0-cp310-cp310-win_amd64.whl (3.3 MB)
   ---------------------------------------- 3.3/3.3 MB 13.1 MB/s eta 0:00:00
Installing collected packages: pillow
Successfully installed pillow-9.2.0

Script:

from PIL import Image
from PIL import ExifTags

image = Image.open("C:/imatges_agora_xtec_cat/013-Premi-03B-rc-1024x682.jpg")

exif_info = image._getexif()

for tag, value in exif_info.items():
  decoded = ExifTags.TAGS.get(tag, tag)
  print(str(decoded) + ": " + str(value))

Sortida:

ImageWidth: 6720
ImageLength: 4480
BitsPerSample: (8, 8, 8)
PhotometricInterpretation: 2
ResolutionUnit: 2
ExifOffset: 288
Make: Canon
Model: Canon EOS 5D Mark IV
Software: Adobe Photoshop CC 2018 (Macintosh)
Orientation: 1
DateTime: 2022:06:22 11:18:01
SamplesPerPixel: 3
XResolution: 300.0
YResolution: 300.0
ExifVersion: b'0231'
ShutterSpeedValue: 11.643856
ApertureValue: 4.33985
DateTimeOriginal: 2022:06:21 18:11:54
DateTimeDigitized: 2022:06:21 18:11:54
ExposureBiasValue: 0.3333333333333333
MaxApertureValue: 4.0
MeteringMode: 5
ColorSpace: 65535
Flash: 16
FocalLength: 73.0
ExifImageWidth: 1772
ExifImageHeight: 1181
SceneCaptureType: 0
FocalPlaneXResolution: 1866.6666564941406
FocalPlaneYResolution: 1866.6666564941406
OffsetTime: +02:00
OffsetTimeOriginal: +00:00
OffsetTimeDigitized: +00:00
SubsecTimeOriginal: 03
SubsecTimeDigitized: 03
FocalPlaneResolutionUnit: 3
ExposureTime: 0.0003125
FNumber: 4.5
ExposureProgram: 3
CustomRendered: 0
ISOSpeedRatings: 5000
ExposureMode: 0
SensitivityType: 2
WhiteBalance: 0
RecommendedExposureIndex: 5000
BodySerialNumber: 013021004861
LensSpecification: (70.0, 200.0, nan, nan)
LensModel: EF70-200mm f/4L USM
LensSerialNumber: 0000000000

Aquest script és capaç d’obtenir les dades EXIF que hi ha en una foto, així, podem saber la data en que es va fer la foto, la càmara usada, i fins i tot, dades d’ubicació GPS si el dispositiu des de el qual es va fer té aquesta opció.

Exercici:

Investiga les dades de més interès que pot aportar la informació EXIF d’una foto penjada a una web.

Exercici:

Adapta l’ script per a obtenir la info EXIF de totes imatges que hi hagi en un directori.


Informació de la construcció d’una web

Una altra informació d’interès que podem capturar d’una web són les capçaleres http i les respostes a errors típics per a saber quins serveis, versions i sistemes operatius hi ha corrent en un servidor.

A continuació, mostrem un exemple de con usar la llibreria builtWith de python per a l’obtenció d’informació de les eines que hi ha darrera una web.

Instal·lem la llibreria amb les comandes corresponents.

Comandes:

pip install builtWith

Collecting builtWith
  Downloading builtwith-1.3.4.tar.gz (34 kB)
  Preparing metadata (setup.py) ... done
Collecting six
  Downloading six-1.16.0-py2.py3-none-any.whl (11 kB)
Using legacy 'setup.py install' for builtWith, since package 'wheel' is not installed.
Installing collected packages: six, builtWith
  Running setup.py install for builtWith ... done
Successfully installed builtWith-1.3.4 six-1.16.0

Script:

>>> import builtwith
>>> builtwith.parse('http://bytes.cat/')

Sortida:

{'cdn': ['CloudFlare'], 'wikis': ['DokuWiki'], 'programming-languages': ['PHP']}

Provem més pàgines:

>>> builtwith.parse('https://agora.xtec.cat/iesesteveterradas/')

{'web-servers': ['Apache'], 'font-scripts': ['Font Awesome', 'Google Font API'], 'widgets': ['Lockerz Share'], 'javascript-frameworks': ['Modernizr', 'Moment.js', 'Prototype', 'React', 'jQuery'], 'web-frameworks': ['Twitter Bootstrap', 'ZURB Foundation'], 'cms': ['WordPress'], 'programming-languages': ['PHP'], 'blogs': ['PHP', 'WordPress'], 'video-players': ['YouTube']}

>>> builtwith.parse('https://institutpoblenou.cat/')

{'web-servers': ['Nginx'], 'font-scripts': ['Google Font API'], 'tag-managers': ['Google Tag Manager'], 'analytics': ['TrackJs'], 'web-frameworks': ['Twitter Bootstrap'], 'ecommerce': ['WooCommerce'], 'cms': ['WordPress'], 'programming-languages': ['PHP'], 'blogs': ['PHP', 'WordPress'], 'marketing-automation': ['Yoast SEO'], 'video-players': ['YouTube'], 'javascript-frameworks': ['jQuery']}

>>> builtwith.parse('https://virtual.ecaib.org/')

{'lms': ['Moodle'], 'programming-languages': ['PHP'], 'web-servers': ['Nginx'], 'font-scripts': ['Font Awesome', 'Google Font API'], 'javascript-graphics': ['MathJax'], 'javascript-frameworks': ['RequireJS', 'jQuery'], 'video-players': ['YouTube']}


Ocultar la informació de capçaleres http d’Apache web server

Instal·lem una servidor apache en una màquina virtual amb Ubuntu Linux.

Comandes:

sudo apt install apache2

Una vegada instal·lat, podem provar les capçaleres que envia per defecte, amb una comanda des d’un terminal del propi servidor.

Comanda:

curl -I localhost

HTTP/1.1 200 OK
Date: Tue, 05 Jul 2022 16:54:48 GMT
Server: Apache/2.4.41 (Ubuntu)
Last-Modified: Tue, 05 Jul 2022 00:03:02 GMT
ETag: "2aa6-5e30393856701"
Accept-Ranges: bytes
Content-Length: 10918
Vary: Accept-Encoding
Content-Type: text/html

Veiem que dona informació de la versió d’apache instal·lada i del sistema operatiu.

Aquesta informació també la donarà en una configuració per defecte en escriure una url del servidor que faci referència a una pàgina que no existeix.


webscraping_apache.1657045873.txt.gz · Darrera modificació: 2022/07/05 18:31 per josefina_llaberia