Web scraping¶
I metodi http e https di sys aprono la pagina web passata come argomento e restituiscono un oggetto WebPage.
1 2 | url = 'http://help2.ptabs.eu/_static/table_example.html'
page = sys.http(url)
|
Metodi dell’oggetto WebPage:
- doc: restituisce un documento Nokogiri
- table(n:, id:, css:): restituidce una tabella della pagina che può essere selezionata per numero, per id oppure per classe
- tables(css:): restituidce tutte tabelle della pagina o quelle che corrispondono alle classi indicate
Metodi dell’oggetto documento Nokogiri (questi metodi possono essere invocati anche direttamente sull’oggetto WebPage):
- to_html: converte il documento in formato HTML
- xpath: esegue una query XPath
- css: esegue una query attraverso selettori CSS
Metodi dell’oggetto table:
- to_tab("title"): genera una tabella nel report pTabs
- to_ds(:ws): crea un dataset con il contenuto della tabella
1 2 3 | tb = page.table(:id => :t02)
tb.to_tab
tb.to_ds
|