Mustand: sisu ei ole veel tehniliselt ega keeleliselt täielikult kontrollitud ega toimetatud.

Peatüki vaade

Linux/Unix/macOS käsurea kiirõpik

Praegu loed peatükki Andmeteaduse eelteadmised käsurea vaates, mis kuulub osasse Osa V: Arendus ja töövood.

Andmeteaduse eelteadmised käsurea vaates

Loogika

Kui räägitakse andmeteaduse eelteadmistest, siis tavaliselt mõeldakse vähemalt neid plokke:

  • programmeerimine, eriti Python
  • andmebaasid, SQL ja relatsiooniline mõtteviis
  • failivormingud nagu CSV, JSON ja XML
  • statistika, tõenäosusteooria ja matemaatiline mõtlemine

Käsurida ei asenda neid kõiki, aga ta aitab neid kokku siduda.

Just siin on käsurea suur väärtus:

  • näed kiiresti, mis failid sul üldse on
  • saad kontrollida andmete kuju enne, kui lähed suuremasse tööriista
  • saad teha väikseid filtreid, loendusi ja ümberkujundusi
  • õpid töövoogu, mis on hiljem kasulik ka Pythonis, SQL-is ja Dockeris

Kiirülevaade

Eesmärk on siduda käsurida andmeteaduse eelteadmistega: mitte õpetada kogu statistikat või Pythonit, vaid näidata, kuidas andmete kuju ja töövoog nähtavaks teha.

Teema või tööriistMilleksMida praktikas näed
programmeeriminekorda andmetöötlussammeskriptid ja korduvad käivitused
SQL ja andmebaasidstruktureeri ja küsi andmeidtabelid, võtmed ja päringud
failivormingudmäära, kuidas andmeid lugedaCSV read, JSON puud, XML märgendid
matemaatika ja statistikaanna tulemustele sisuanalüüs, mida käsurida üksi ei asenda
head, column, jq, wc, sqlite3tee esimene kontrollfaili kuju, read, veerud ja mahud
Python, SQL, notebooktee tõsisem analüüssuurem töövoog pärast esmast kontrolli

Tüüpilised algaja vead

  • arvatakse, et andmeteadus algab kohe suure mudeli või teegiga
  • minnakse otse keerukasse analüüsi enne, kui andmefaili kuju on kontrollitud
  • alahinnatakse failivormingute ja töövoo korrastatuse tähtsust

See õpik katab tugevamalt:

  • käsurea loogika
  • failide ja voogude töötluse
  • Pythoni keskkonnad
  • SQLite'i ja SQL-i alguse
  • arendustöövoo, Git-i ja Dockeri

See õpik ei püüa eraldi õpetada põhjalikult:

  • statistikat
  • tõenäosusteooriat
  • lineaaralgebrat
  • R-i

Kiirspikker

Hea rusikareegel on:

  • enne suurt tööriista vaata andmeid väikese käsuga
  • enne keerulist analüüsi kontrolli, et saad aru, mis kujul andmed üldse on

Kõige tavalisemad vajadused

Programmeerimine

Andmetöö juures tähendab see sageli:

  • väikest automaatikat
  • andmete lugemist failist
  • tulemuste salvestamist
  • skriptide korduvat käivitamist

See tuleb kõige rohkem välja Pythoni, shelliskriptide ja töövoogude peatükkides.

Andmevormingud

Väga tihti ei ole probleem kohe mitte statistikas, vaid selles, et:

  • fail on vales vormingus
  • veerud ei ole seal, kus arvasid
  • kirjed on pesastatud
  • andmed on teksti sees, mitte tabelina

Seetõttu on CSV, JSON ja XML mõistmine väga praktiline baasoskus.

SQL ja relatsiooniline mõtteviis

SQL ei tähenda ainult "käsk andmebaasile", vaid ka teatud andmemudelit.

Kasulikud põhiküsimused on:

  • mis on tabel
  • mis on rida ja veerg
  • mis on primaarvõti
  • kuidas kaks tabelit omavahel seotakse

Kui see loogika on olemas, on ka keerulisemad päringud palju vähem müstilised.

Statistika ja matemaatiline mõtlemine

Seda osa ei saa käsurea või SQL-iga asendada.

Oluline aus mõte on:

  • käsurida aitab andmeid ette valmistada
  • Python või R aitab neid töödelda
  • statistiline mõtlemine aitab tulemusi mõista

Kõik kolm on eri asjad.

Näited

Väga tüüpiline väike andmetöö rada võib olla selline:

  1. vaata faili esimesi ridu
  2. kontrolli, mis väljad seal on
  3. tee lihtne filtreerimine või loendus
  4. pane andmed SQLite tabelisse
  5. tee esimene SQL päring
  6. loe tulemus Pythoniga sisse

See tähendab, et päris tööriistajoon võib olla:


fail -> head/less/grep -> column/cut/tr -> sqlite3 -> python3

Ja just selle pärast on käsurida andmeteaduse stardis kasulik:

  • ta aitab väikeste sammudega kiiresti pilti ette saada
  • ta ei sunni kohe suurt keskkonda avama
  • ta teeb veaallikad nähtavamaks

Minitest

  1. Nimeta neli plokki, mida andmeteaduse eelteadmistena kõige sagedamini mainitakse.
  2. Selgita ühe lausega, miks CSV, JSON ja XML ei ole sama asi.
  3. Selgita ühe lausega, miks SQL ja statistika ei ole asendatavad oskused.
  4. Pane kirja üks väike töövoog, kus kasutaksid nii käsurida, SQLite'i kui Pythonit.

Peatüki täisspikker

Edasijõudnu

Eesmärk

andmeteaduse stardis ei piisa ühest tööriistast; vaja on korraga failivormingute tunnetust, SQL-i mõtteviisi, programmeerimist ja statistilist mõtlemist.

Põhikujud

Põhiteljed

  • programmeeriminekorduv töö loogikaks
  • SQLküsi ja seo andmeid
  • vormingudCSV, JSON, XML
  • statistikaanna tähendus