Web scraping

I metodi http e https di sys aprono la pagina web passata come argomento e restituiscono un oggetto WebPage.

1
2
url = 'http://help2.ptabs.eu/_static/table_example.html'
page = sys.http(url)

Metodi dell’oggetto WebPage:

  • doc: restituisce un documento Nokogiri
  • table(n:, id:, css:): restituidce una tabella della pagina che può essere selezionata per numero, per id oppure per classe
  • tables(css:): restituidce tutte tabelle della pagina o quelle che corrispondono alle classi indicate

Metodi dell’oggetto documento Nokogiri (questi metodi possono essere invocati anche direttamente sull’oggetto WebPage):

  • to_html: converte il documento in formato HTML
  • xpath: esegue una query XPath
  • css: esegue una query attraverso selettori CSS

Metodi dell’oggetto table:

  • to_tab("title"): genera una tabella nel report pTabs
  • to_ds(:ws): crea un dataset con il contenuto della tabella
1
2
3
tb = page.table(:id => :t02)
tb.to_tab
tb.to_ds