Sådan importeres Excel-data til Python-scripts vha. Pandaer
Reklame
Microsoft Excel er den mest anvendte regnearkssoftware i verden, og med god grund: den brugervenlige interface og kraftfulde indbyggede værktøjer gør det nemt at arbejde med data.
Men hvis du vil udføre mere avanceret databehandling, skal du gå ud over Excel's muligheder og begynde at bruge et scripting / programmeringssprog som Python. I stedet for manuelt at kopiere dine data til databaser, her er en hurtig tutorial om, hvordan du indlæser dine Excel-data i Python ved hjælp af Pandas.
Bemærk: Hvis du aldrig har brugt Python før, kan denne tutorial være en smule vanskelig. Vi anbefaler, at du starter med disse websteder til at lære Python De 5 bedste websteder til at lære Python-programmering De 5 bedste websteder til at lære Python-programmering Vil du lære Python-programmering? Her er de bedste måder at lære Python online, hvoraf mange er helt gratis. Læs mere og disse grundlæggende Python-eksempler for at komme i gang 10 grundlæggende Python-eksempler, der vil hjælpe dig med at lære hurtigt 10 grundlæggende Python-eksempler, der vil hjælpe dig med at lære hurtigt Denne artikel med grundlæggende pythoneksempler er til dem, der allerede har en vis programmeringserfaring og blot ønsker at overgang til Python så hurtigt som muligt. Læs mere .
Hvad er Pandas?
Python Data Analysis Library (“Pandas”) er et open source bibliotek til Python programmeringssprog, der bruges til dataanalyse og datamanipulation.
Pandas indlæser data i Python-objekter kendt som Dataframes, som lagrer data i rækker og kolonner ligesom en traditionel database. Når et Dataframe er oprettet, kan det manipuleres ved hjælp af Python, hvilket åbner en verden af muligheder.
Installation af Pandaer
Bemærk: Du skal have Python 2.7 eller nyere for at installere Pandas.
For at begynde at arbejde med Pandas på din maskine skal du importere Pandas-biblioteket. Hvis du søger efter en tungvægtsløsning, kan du downloade Anaconda Python Distribution, som har Pandas indbygget. Hvis du ikke bruger Anaconda, er Pandas let at installere i din terminal.
Pandas er en PyPI-pakke, hvilket betyder, at du kan installere ved hjælp af PIP til Python via kommandolinjen. Moderne Mac-systemer leveres med PIP. For andre Windows, Linux og ældre systemer er det let at lære, hvordan man installerer PIP til Python Sådan installeres Python PIP på Windows, Mac og Linux Sådan installeres Python PIP på Windows, Mac og Linux Mange Python-udviklere er afhængige af et værktøj kaldes PIP for Python for at gøre alt lettere og hurtigere. Sådan installeres Python PIP. Læs mere .
Når du har åbnet din terminal, kan den nyeste version af Pandas installeres ved hjælp af kommandoen:
>> pip install pandas
Pandas kræver også NumPy-biblioteket, lad os også installere dette på kommandolinjen:
>> pip install numpy
Du har nu Pandas installeret og klar til at oprette din første DataFrame!
Forberedelse af Excel-data
Til dette eksempel skal vi bruge et eksempeldatasæt: en Excel-projektmappe med titlen Cars.xlsx .
Dette datasæt viser mærke, model, farve og årgang af biler, der er indtastet i tabellen. Tabellen vises som et Excel-interval. Pandas er smart nok til at læse dataene korrekt.
Denne arbejdsbog gemmes i skrivebordsbiblioteket, her er den anvendte filsti:
/Users/grant/Desktop/Cars.xlsx
Du skal kende filstien i projektmappen for at bruge Pandas. Lad os begynde med at åbne Visual Studio-koden for at skrive scriptet. Hvis du ikke har en teksteditor, anbefaler vi enten Visual Studio-kode eller Atomeditor Visual Studio-kode vs. Atom: Hvilken teksteditor er den rigtige for dig? Visual Studio-kode vs. Atom: Hvilken teksteditor er det rigtige for dig? Leder du efter en gratis og open source-kodeditor? Visual Studio Code og Atom er de to stærkeste kandidater. Læs mere .
Skrivning af Python-scriptet
Nu hvor du har valgt din teksteditor, begynder den rigtige sjov. Vi kommer til at samle Python og vores Cars-arbejdsbog for at oprette en Pandas DataFrame.
Import af Python-bibliotekerne
Åbn din teksteditor og opret en ny Python-fil. Lad os kalde det Script.py .
For at arbejde med Pandas i dit script, skal du importere det til din kode. Dette gøres med en kodelinje:
import pandas as pd
Her indlæser vi Pandas-biblioteket og knytter det til en variabel "pd". Du kan bruge ethvert navn, du gerne vil have, vi bruger "pd" som kort for Pandaer.
Hvis du vil arbejde med Excel ved hjælp af Pandas, skal du bruge et yderligere objekt med navnet ExcelFile . ExcelFile er indbygget i Pandas-økosystemet, så du importerer direkte fra Pandas:
from pandas import ExcelFile
Arbejde med filstien
For at give Pandas adgang til din arbejdsbog skal du dirigere dit script til filens placering. Den nemmeste måde at gøre dette på er ved at give dit script den fulde sti til projektmappen.
Husk vores vej i dette eksempel: / Brugere/grant/Desktop/Cars.xlsx
Du har brug for denne filsti, der henvises til i dit script for at udtrække dataene. I stedet for at henvise til stien inde i Read_Excel-funktionen, skal du holde koden ren ved at gemme stien i en variabel:
Cars_Path = '/Users/grant/Desktop/Cars.xlsx'
Du er nu klar til at udtrække data ved hjælp af en Pandas-funktion!
Uddrag Excel-data vha. Pandas.Read_Excel ()
Med Pandas importeret og din sti-variabel indstillet, kan du nu bruge funktioner i Pandas-objektet til at udføre vores opgave.
Den funktion, du skal bruge, benævnes korrekt Read_Excel . Read_Excel-funktionen tager filstien i en Excel-projektmappe og returnerer et DataFrame-objekt med indholdet af projektmappen. Pandas koder denne funktion som:
pandas.read_excel(path)
"Sti" -argumentet vil være stien til vores Cars.xlsx-projektmappe, og vi har allerede indstillet stienstreng til variablen Cars_Path.
Du er klar til at oprette DataFrame-objektet! Lad os sammensætte det hele og sætte DataFrame-objektet til en variabel ved navn “DF”:
DF = pd.read_excel(Cars_Path)
Til sidst vil du se DataFrame, så lad os udskrive resultatet. Føj en udskrivning til slutningen af dit script ved hjælp af variablen DataFrame som argument:
print(DF)
Tid til at køre scriptet i din terminal!
Kørsel af Python-scriptet
Åbn din terminal eller kommandolinje, og naviger til det bibliotek, der indeholder dit script. I dette tilfælde har jeg “Script.py” placeret på skrivebordet. Hvis du vil udføre scriptet, skal du bruge python-kommandoen efterfulgt af scriptfilen:
Python trækker dataene fra “Cars.xlsx” ind i din nye DataFrame og udskriver DataFrame til terminalen!
Et nærmere kig på DataFrame-objektet
Ved første øjekast ligner DataFrame meget lig en almindelig Excel-tabel. Pandas DataFrames er let at fortolke som et resultat.
Dine overskrifter er mærket øverst i datasættet, og Python har udfyldt rækkerne med alle dine oplysninger læst fra “Cars.xlsx” -arbejdsbogen.
Læg mærke til den yderste kolonne, et indeks, der starter ved 0 og nummererer kolonnerne. Pandas anvender dette indeks som standard på dit DataFrame, hvilket kan være nyttigt i nogle tilfælde. Hvis du ikke vil have dette indeks genereret, kan du tilføje et yderligere argument i din kode:
DF = pd.read_excel(Cars_Path, index=False)
Hvis du indstiller argumentet "indeks" til usant, fjernes indekskolonnen, hvor du kun har dine Excel-data.
Gør mere med Python
Nu hvor du har mulighed for at læse data fra Excel-regneark, kan du anvende Python-programmering, uanset hvilken måde du vælger. Arbejde med Pandas er en enkel måde for erfarne Python-programmerere at arbejde med data, der er gemt i Excel-arbejdsbøger.
Den lethed, hvorpå Python kan bruges til at analysere og manipulere data, er en af de mange grunde til, at Python er fremtidens programmeringssprog 6 grunde til, at Python er fremtidens programmeringssprog 6 grunde til, at Python er fremtidens programmeringssprog Vil du lære eller udvide dine programmeringsevner? Her er grunden til at Python er det bedste programmeringssprog at lære i år. Læs mere .
Billedkredit: Rawpixel / Depositphotos
Udforsk mere om: Dataanalyse, Microsoft Excel, Python, scripting.