3213. Maak kennis: Jupyter Notebook, Web Scraping & Data Visualisatie

Data engineering met Interactieve Python, Beautiful Soup en Pandas

Inhoud

Inleiding

Voor deze speciale bijeenkomst wil ik jullie graag met een aantal nieuwe tools op weg helpen. Dat zijn Jupyter Notebook voor het interactief werken met Python, Beautiful Soup om waardevolle informatie uit een ingelezen HTML-soep te vissen en Pandas voor bewerken van data en het à la minute omzetten daarvan in presenteerbare graphics.

Jupyter Notebook is een interactieve omgeving waarin je stap voor stap programma's kunt ontwikkelen en verbeteren en deze meteen kunt documenteren. Het resultaat is een Notebook-document dat je gemakkelijk kunt delen met anderen die dan desgewenst zelf de stappen die jij gezet hebt kunnen herhalen. Of je gebruikt het zelf op een later moment nogmaals, maar dan bijvoorbeeld met actuelere data.

Een Notebook-document is opgebouwd uit onder elkaar geplaatste blokken (Jupyter spreekt van cellen). Je hebt markdown-cellen (tekst met eenvoudige opmaak-codes) en code-cellen (programmacode). Jupyter kan de markdown-cellen netjes opmaken en de code-cellen laten "runnen". De output (tekst, graphics) komt onder de code-cell in het Notebook te staan.

Juyter Notebook werkt met verschillende programmeertalen. Wij gebruiken interactieve Python 3 plus de Python-bibliotheken Beautiful Soup en Pandas.

Inhoud
  1. We gaan eerst aan de slag met een leeg Notebook en experimenteren met een markdown-cel en een code-cel. 
  2. Daarna werken we met een bestaand Notebook-document dat een datafile van een website plukt, omzet naar een Pandas dataframe, oppoetst, en gebruikt als basis voor grafieken.
  3. Tot slot zien we een notebook-document dat een complete HTML-webpagina binnenhaalt en Beautiful Soup gebruikt om daar de door ons gewenste data uit op te vissen. 

Resultaat

  1. Vooraf krijg je instructies hoe je zelf Jupyter Notebook op een Windows of Linux PC (Raspberry Pi!) kunt installeren of hoe je gebruik maakt van een gratis online systeem incl. Beautiful Soup en Pandas.
  2. Tijdens de workshop krijg je hands-on ervaring met de Jupyter interface en de werkwijze van het stap-voor-stap verder werken aan het oplossen van een probleem.
  3. Je maakt kennis met twee methoden van web scraping (een bestand binnenhalen en bewerken met Pandas en een webpagina binnenhalen en bewerken met Beautiful Soup en Pandas).
  4. Je krijgt ook twee voorbeelden van datavisualisatie die je zelf kunt variëren (Pandas).
  5. Tot slot kun je de notebooks waar we mee gewerkt hebben voor jezelf gebruiken als voorbeeld / vertrekpunt voor je eigen projecten.

Voorkennis

Verplichte kennis

Enige kennis van coderen / programmeren is wel wenselijk; de programmeertaal doet er niet toe.

Meegenomen kennis

We werken met interactieve Python 3. Heb je daar al eerder mee gewerkt dan is dat inderdaad "mooi meegenomen".

Lesmateriaal

Syllabus

Hand-outs van presentatie

Twee voorbeeld notebooks waarmee gewerkt gaat worden.

Sites

Pandas is een snelle, krachtige, flexibele en gebruiksvriendelijke open source-tool voor gegevensanalyse en -manipulatie, gebouwd bovenop de programmeertaal Python.

Beautiful Soup is een Python-bibliotheek om gegevens uit HTML- en XML-bestanden te halen. Het bespaart programmeurs gewoonlijk uren of dagen werk.

Jupyter Notebook is een open-source webtoepassing waarmee je documenten kunt maken en delen die live code, vergelijkingen, visualisaties en verhalende tekst bevatten. Toepassingen zijn onder meer: geg

Sofos Consultancy is de eenpersoonszaak van jullie trainer. Sofos richt zich op ICT en de Sustainable Development Goals (SDG's) en is specialist in gaming / simulatie, digitale fabricage (fablabs) en

ECOIS - Expertisecentrum Onderwijs & ICT Suriname - ECOIS is een samenwerkingsverband gericht op voorlichting, advies, implementatie en training op het gebied van ict en duurzame ontwikkelingsdoelen (

Interessant voor

  • Iedereen
Uit:
  • Alle onderwijstypes

Thema's

  • Systeembeheer
  • Programmeren
  • STE(A)M

Tijdstip

Dag 3 Tijdslot 2 (5 mei 11:30 - 12:30)
Kostprijs: € 18
Er zijn 11 plaatsen waarvan er 3 bezet zijn.
Voor deze sessie wil ik me graag

Vorm

Online hands-on workshop

Bereid je goed voor!

Vóór de workshop vind je hier de instructies om Jupyter Notebook te installeren. We zullen die ook naar jou mailen.

Herstart je computer voor je deelneemt aan de ICT-praktijkweek en werk bij voorkeur via een netwerkkabel, zo is je verbinding optimaal.

Test video en geluid. Hou je webcam open, zodat de spreker je kan zien. We streven naar optimale interactie en betrokkenheid.  

Zorg voor een groot / tweede scherm of extra laptop, zodat je in je ene browser(tabblad) het evenement kan bijwonen en de spreker kan zien, terwijl je in je andere browser(tabblad) of in een andere toepassing de instructies uitvoert tijdens deze hands-on workshop.

Veel leerplezier!

Lesgever

Pieter van der Hijden
Lees meer over de expertise van Pieter.


Korte titel : Data WebScraping #STEM #PR #TI

Deze pagina werd al 138 keer bekeken