Data Science-Screencasts: Eine Daten-Origami-Rezension
Data Origami ist eine neue Website von Cameron Davidson-Pilon, die datenwissenschaftliche Screencasts bereitstellt. Es ist eine coole Idee und eine coole Seite.
Cameron war so freundlich, mir Zugriff auf die Website zu gewähren, damit ich sie überprüfen konnte. Ich habe mir alle Videos angeschaut, die ich konnte, und alle meine Notizen aufgeschrieben. In diesem Beitrag erhalten Sie einen kleinen Einblick in Camerons neue Website Data Origami.
Daten-Origami
Daten-Origami ist eine einfache Idee. Es bietet Screencasts zu Themen, die für einen Datenwissenschaftler relevant sind.
Jeder Screencast dauert 9–13 Minuten und behandelt ein eng gefasstes und spezifisches Thema. Alle Screencasts verwenden Python und werden in einem IPython-Notizbuch präsentiert, einschließlich Text, mathematischen Gleichungen, Code und Diagrammen. Die Notizbücher sind ebenso verfügbar wie Downloads der Videos selbst für Desktop und Mobilgeräte sowie Links zu weiteren Ressourcen und relevanten Datensätzen.
Zum Zeitpunkt des Schreibens handelt es sich um einen kostenpflichtigen Dienst für 9 US-Dollar pro Monat für den Zugriff auf den gesamten Screencast, obwohl ein Screencast kostenlos verfügbar ist.
In den Videos wird davon ausgegangen, dass Sie sich mit der Programmierung (Python) auskennen und sich mit Statistiken auskennen.
Die Seite ist sauber und vermittelt ein Heroku-Feeling (vielleicht liegt es am Lila und an den Strichzeichnungen). Die Videos sind groß und von guter Qualität und die Bildschirme sind nicht mit Ablenkungen überfüllt.
Wer ist Cameron?
Wenn Sie nach Indikatoren für die Autorität in diesem Bereich suchen, hat Cameron sie.
Cam arbeitet an der Datenanalyse bei Shopify. Er verarbeitet Daten für ein großes Unternehmen, von 9 bis 17 Uhr.
Cameron ist der Autor des selbstveröffentlichten Fachbuchs Bayesian Methods for Hackers, das eine Einführung in Bayesian mit Python vermittelt. Es ist alles auf GitHub (und dem nbviewer IPython Viewer) verfügbar und wurde viele Male auf technischen Nachrichtenseiten wie Hacker News und Reddit populär gemacht (mehrmals, Social Proof++).
Schließlich ist Cameron der Autor von Lifelines, einem Python-Paket, das Überlebensanalysen unterstützt.
In seinen Screencasts zu Data Origami kommen sowohl die Themen Bayesianische Methoden als auch Überlebensanalyse vor.
Data Science-Screencasts
https://www.youtube.com/watch?v=Qw1XrXd4Gwc
Ich habe alle sieben Screencasts durchgesehen und mir Notizen gemacht. Ich möchte Cam und seine Ressourcen respektieren, daher hier nur eine Zusammenfassung der derzeit verfügbaren Videos:
- Bayesianisches Beta-Binomialmodell: Mehr Mathematik als die anderen, konzentriert sich auf die Einführung der Beta-Verteilung und deren Verwendung zur Modellierung von Posterior-Verteilungen.
- Einführung in die PCA: Was ist die Hauptkomponentenanalyse, was soll damit erreicht werden und was bedeuten die Ergebnisse?
- Visualisierung des Informationsverlusts von PCA: Clevere Möglichkeit, diese reversible Projektionsmethode zu demonstrieren.
- Sortieren von Farben mit PCA (kostenlos): Eine clevere Möglichkeit, eine nützliche Anwendung von PCA zu demonstrieren.
- Konversionsraten von A/B-Tests: Ein quantifizierter Ansatz zur Kommunikation von Unsicherheit im Zusammenhang mit A/B-Testergebnissen. Ein Muss!
- Warum sollte ich mich für die Überlebensanalyse interessieren? Den Rahmen für die Überlebensanalyse schaffen.
- Schätzung der Überlebensfunktion: Verwenden des Kaplan-Meier-Schätzers zur Modellierung der Überlebensfunktion für ein cleveres Beispielproblem.
Beachten Sie, dass ich clever ein paar Mal verwendet habe. Seine Beispiele sind sehr gut durchdacht, sehr cool.
UPDATE: Seit ich die Rezension geschrieben habe, ist ein neuer Screencast erschienen.
Rezension
Cameron kennt sich aus. Ich persönlich fand die PCA-Videos weniger interessant, entweder weil ich mit dem Inhalt vertraut war oder weil die Bereitstellung weniger ausgefeilt war. Es war großartig, sich mit der Bayes'schen Unsicherheits- und Überlebensanalyse zu befassen.
Cameron ist der Chef von Bayesian. Er konnte sein Buch problemlos in 10-Minuten-Blöcke aufteilen und ich würde alles aufessen (Hinweis, Hinweis).
Die Videos scheinen auf Amazon S3 gehostet zu sein, aber beim Ansehen kam es zu Verzögerungen. Es ist durchaus möglich, dass es die Tageszeit war, zu der ich beschlossen habe, mir die Videos anzuschauen, aber damals war es nervig. Keine große Sache, ich hätte sie einfach herunterladen und ansehen können, und ich bin mir sicher, dass Cam das regeln wird, wenn er größer wird.
Was das Format betrifft, findet er immer noch seine Leistung. Die neueren Videos sind viel ausgefeilter als die ersten und ein toller Vorgeschmack auf das, was noch kommt. Persönlich würde ich mir wirklich mehr „Das ist, was wir tun werden“ am Anfang und „Das ist, was wir getan haben“ am Ende wünschen. Ich muss stark koffeinhaltig sein, um eines dieser Videos beim ersten Anschauen zu absorbieren, auch wenn ich schnell Notizen mache. Es wäre cool, wenn mich der Screencast daran erinnern würde, was wir besprochen haben.
Ich bin vielleicht so etwas wie ein Power-User. Ich schaue mir alle YouTube-Videos zweimal an und mache mir viele Notizen. Es wäre cool, wenn der integrierte Player eine 2x-Funktion hätte und das Konto das Erstellen von Notizen oder Kommentaren unterstützen würde. Keine große Sache, nur Power-User-Funktionen, die das Glück steigern könnten.
Sobald er dort viel mehr Inhalte hat, kann ich mir Kontrollkästchen für „Ich habe mir das angesehen“ und sogar die Bündelung von Videos in Content-Streams vorstellen.
Derzeit scheint es keine Roadmap für Inhalte zu geben, sondern nur das, was Cam gefällt. Das ist gut, weil er bei allem, was er teilt, mit Leidenschaft dabei ist, aber anfangs schlecht, weil wir uns auf seine Interessen einlassen müssen. Es gibt kein Händchenhalten.
Cam merkt an, dass er zwei pro Monat veröffentlicht, sodass das Wachstum der Bibliothek begrenzt ist. Dies könnte Burn-out eindämmen (wie Ryan Bates von Railscasts), beträgt aber nur 24 pro Jahr. Ich habe alle 7 Videos in einer Nacht durchgeknallt. Ich gehe davon aus, dass der Appetit mancher nicht gestillt wird.
Schließlich ist der Inhalt professionell. Einige Screencasts sind als Anfänger gekennzeichnet. Das sind sie nicht. Sie sollten sich mit Daten und einigen Algorithmen auskennen, bevor Sie sich darauf einlassen. Wenn Sie immer noch entscheiden, welches Tool oder welche Bibliothek Sie verwenden möchten, um Ihren ersten Klassifikator für den Iris-Datensatz auszuführen, ist diese Ressource nichts für Sie.
Zusammenfassung
Dies ist eine großartige Ressource mit allen Anzeichen dafür, dass sie mit der Zeit ein Muss sein wird.
- Es wurde von einem echten Profi erstellt, einem Bayesianischen Chef.
- Es ist zu billig (erhöhen Sie Ihre Preise, erwägen Sie, eine Jahres-/Lebenskarte für ein paar Hundert/Tausend Dollar anzubieten).
- Es ist wirklich für Praktiker auf mittlerem (oder höherem) Niveau gedacht, beispielsweise Kollegen von Cameron oder ihm nahestehende Personen.
- Es sind nur ein Dutzend Videos, aber es werden monatlich weitere hinzugefügt.
- Es gibt keine „Folge mir von A nach B“-Roadmap, aber er gibt Einblicke in kommende „Casts“.
Wenn Daten Ihr Hauptberuf sind, schauen Sie sich Data Origami an und melden Sie sich frühzeitig an, um Cameron und seine Vision für erstaunliche erstklassige Data-Science-Screencasts zu unterstützen.