So kommentieren Sie Ihren Python-Code als Datenwissenschaftler
Übersehen Sie diese wesentlichen Aspekte der Programmiertätigkeit nicht.
Datenwissenschaftler wurden in eine spannende Position gebracht; Während ihr Job in der Neuzeit den Einsatz der Programmiersprache erfordert, gibt es bei ihrer Arbeit immer noch viele geschäftliche Aspekte, die sie berücksichtigen müssen. Aus diesem Grund spiegelt der von Datenwissenschaftlern verwendete Python-Code normalerweise das Geschichtenerzählen zur Lösung eines Geschäftsproblems wider. Auch das Umfeld für Datenwissenschaftler ist bemerkenswert; Wir verwenden die Jupyter Notebook-IDE, die eine hervorragende Möglichkeit bietet, mit Datenmanipulation und Modellentwicklung zu experimentieren.
Bei einer anderen Art der Codierungsaktivität würden Datenwissenschaftler die Dinge während der Programmieraktivität anders machen. Dazu gehört die Kommentaraktivität, bei der es sich um eine Aktivität zur Erläuterung Ihres Codes handelt. Für Datenwissenschaftler, deren Anforderungen sich ständig ändern und die zusammenarbeiten, ist es von entscheidender Bedeutung, den Code durch Kommentare angemessen zu erklären.
In diesem Artikel wird erläutert, wie Sie als Datenwissenschaftler Python-Code kommentieren. Wir würden die verschiedenen Punkte besprechen, die Ihre Aktivität verbessern und jedem, der Ihre Codes liest, einen Mehrwert bieten würden. Lasst uns darauf eingehen.
Die Arten von Kommentaren
Bevor wir fortfahren, lernen wir etwas über zwei verschiedene Arten des Kommentierens. Die erste Möglichkeit ist die einzeilige Kommentierung, die im Code die Notation „#“ verwendet. Es wird normalerweise für eine einfache Erklärung des Codes verwendet. Der folgende Code veranschaulicht beispielsweise die Verwendung von einzeiligen Kommentaren.
# The code is to import the Pandas package and call it pd
import pandas as pd
Die andere Möglichkeit zum Kommentieren ist die Verwendung der mehrzeiligen Methode, bei der dreifache Anführungszeichen verwendet werden. Technisch gesehen sind es keine Kommentare, sondern String-Objekte, aber Python würde sie ignorieren, wenn wir sie keiner Variablen zuweisen. Wir können sie anhand des folgenden Beispiels in Aktion sehen.
"""
The code below would import the Pandas package, and we would call them pd throughout the whole working environment.
"""
import pandas as pd
Allgemeine Tipps zum Kommentieren
In diesem Abschnitt besprechen wir einige allgemeine Tipps zum Kommentieren. Es ist nicht unbedingt auf Datenwissenschaftler anwendbar, da diese Tipps eine Best Practice für Programmierer sind, aber es ist gut, sich daran zu erinnern. Die Tipps sind:
Erwägen Sie, den Kommentar in einer separaten Zeile direkt über dem Code zu platzieren, den wir erläutern möchten, um die Lesbarkeit zu verbessern.
- Konsistenter Kommentarstil im gesamten Code, an dem Sie arbeiten.
- Vermeiden Sie die Verwendung von schwer verständlichem Jargon und Fachbegriffen, wenn Sie wissen, dass das Publikum sie nicht verstehen würde.
- Kommentieren Sie nur, wenn es einen Mehrwert bietet, um zu vermeiden, dass etwas so Offensichtliches erklärt wird.
- Pflegen und aktualisieren Sie den Kommentar, wenn er nicht mehr relevant ist.
Dies sind die allgemeinen Richtlinien, um ein besseres Kommentarerlebnis zu ermöglichen. Kommen wir nun zu einem spezifischeren Thema für den Datenwissenschaftler.
Kommentartipps für Datenwissenschaftler
Für den Datenwissenschaftler würde sich die Codierungstätigkeit von der eines Softwareentwicklers oder Webentwicklers unterscheiden. Deshalb gäbe es Unterschiede in der Kommentierungsaktivität. Hier sind einige Tipps, die speziell für uns Datenwissenschaftler gelten.
1. Nutzen Sie Kommentare, um komplexe Prozesse oder Aktivitäten zu verdeutlichen
Die datenwissenschaftliche Aktivität würde viele experimentelle Prozesse beinhalten, die die Leser oder unser zukünftiges Selbst verwirren könnten, wenn wir sie nicht erklären würden. Der Kommentar zum Code würde uns helfen, die Absicht besser zu erklären, insbesondere wenn viele Schritte erforderlich sind. Der folgende Code würde beispielsweise erklären, wie wir Ausreißer durch Normalisierung und Skalierung entfernen.
# Perform data normalization (Min-Max scaling)
normalized_data = (data - np.min(data)) / (np.max(data) - np.min(data))
# Remove outliers by using the sigma rule (3 standard deviations removal)
removed_outlier_data = normalized_data[np.abs(stats.zscore(normalized_data)) < 3]
Der obige Kommentar erklärt, was für jeden Prozess getan wurde und welches Konzept dahinter steckt. Die Angabe der Konzepte, die wir im Code verwendet haben, ist wichtig, um zu verstehen, was wir getan haben.
Es ist nicht auf die Vorverarbeitung beschränkt, sondern kann in allen datenwissenschaftlichen Schritten kommentiert werden. Vom Datenabruf bis zur Modellüberwachung ist es eine gute Praxis, Dinge so zu kommentieren, dass jeder sie versteht. Denken Sie daran, dass unser Kommentar als Datenwissenschaftler die Brücke zwischen dem Code und analytischen Erkenntnissen schlagen könnte.
2. Einen Kommentarstandard haben
Datenwissenschaftliche Aktivitäten sind ein Prozess der Zusammenarbeit, daher ist es gut, eine Standardstruktur zu haben, die jeder versteht. Es ist auch hilfreich, wenn Sie alleine arbeiten, da Sie über den Standard verfügen, den Sie kennen würden. Sie könnten beispielsweise den Kommentar für jede von Ihnen erstellte Funktion standardisieren.
# Function: name of the function
# Usage: description of how to use the function
# Parameters: list the parameters and explain them
# Output: explain the output
Das Obige ist ein Standardbeispiel, da Sie etwas unabhängig erstellen können. Vergessen Sie nicht, bei einem solchen Standard den gleichen Stil, die gleiche Sprache und die gleichen Abkürzungen zu verwenden.
3. Verwenden Sie Kommentare, um den Arbeitsablauf zu unterstützen
In einer kollaborativen Umgebung sind Kommentare unerlässlich, um dem Team das Verständnis des Arbeitsablaufs zu erleichtern. Wir können den Kommentar verwenden, um zu verstehen, wann es neue Code-Updates gibt oder was als nächstes getan werden muss. Beispielsweise verursacht ein Update in einer anderen Funktion Fehler in unserem Prozess, daher müssen wir die Fehler als nächstes beheben.
# TODO: Fix this function ASAP
some_function_to_fix()
4. Implementieren Sie die Markdown-Notebook-Zellen
Die Data Scientist IDE ist ziemlich bemerkenswert, da wir das Notebook zum Experimentieren verwenden. Mithilfe der Zelle im Notebook können wir jeden Code isolieren, sodass er unabhängig ausgeführt werden kann, ohne dass der gesamte Code ausgeführt werden muss. Die Notebook-Zelle ist nicht auf den Code beschränkt, sondern kann in eine Markdown-Zelle umgewandelt werden.
Markdown ist eine Formatierungssprache, die beschreibt, wie der Text aussehen soll. In der Zelle könnte Markdown den folgenden Code näher erläutern. Der Vorteil der Verwendung des Markdowns besteht darin, dass wir detailliertere Kommentare abgeben können als mit dem Standard-Kommentarprozess. Sie können sogar Tabellen, Bilder, LaTeX und vieles mehr hinzufügen.
Das Bild unten zeigt beispielsweise, wie wir Markdown verwenden, um unser Projekt, das Ziel und die Schritte zu erklären.
Weitere Informationen zu Jupyter Markdown Cell finden Sie in der Dokumentation, um besser zu verstehen, was Sie tun können.
Abschluss
Das Kommentieren ist ein wesentlicher Bestandteil der Tätigkeit eines Datenwissenschaftlers, da es dem Leser hilft, zu klären, was mit dem Code passiert ist. Für einen Datenwissenschaftler unterscheidet sich der Kommentarprozess geringfügig vom für einen Softwareentwickler oder Webentwickler, da unser Arbeitsprozess anders ist. Aus diesem Grund gibt dieser Artikel einige Tipps, die Sie als Datenwissenschaftler zum Kommentieren verwenden können. Die Tipps sind:
Verwenden Sie Kommentare, um komplexe Prozesse oder Aktivitäten zu verdeutlichen
- Einen Kommentarstandard haben
- Verwenden Sie Kommentare, um den Arbeitsablauf zu unterstützen
- Implementieren Sie die Markdown-Notizbuchzellen
Ich hoffe, es hilft.