7 Algorithmen für maschinelles Lernen, die jeder Datenwissenschaftler kennen sollte

Als Datenwissenschaftler sollten Sie SQL und Python beherrschen. Aber es kann auch sehr hilfreich sein, maschinelles Lernen zu Ihrem Werkzeugkasten hinzuzufügen.

Als Datenwissenschaftler nutzen Sie möglicherweise nicht immer maschinelles Lernen. M

Weiterlesen →

Branchen im Fokus: Maschinelles Lernen zur Erkennung von Cybersicherheitsbedrohungen

Cybersicherheitsbedrohungen werden immer raffinierter und zahlreicher. Um diese Herausforderungen zu bewältigen, hat die Branche auf maschinelles Lernen (ML) als Werkzeug zur Erkennung und Reaktion auf Cyber-B

Weiterlesen →

Erkundung von LightGBM: Blattweises Wachstum mit GBDT und GOSS

LightGBM ist ein hocheffizientes Framework zur Gradientenverstärkung. Es hat aufgrund seiner Geschwindigkeit und Leistung an Bedeutung gewonnen, insbesondere bei großen und komplexen Datensätzen. Dieser leistungsstarke Algorithmus wurde von Microsoft entwickelt und ist für seine einzigartige Fähigkeit bekannt, große Datenmengen im Vergleich zu herkömmlichen Methoden deutlich einfacher zu verarbeiten.

In diesem Beitrag experimentieren wir mit dem LightGBM-Framework für den Ames Housing-D

Weiterlesen →

7 LLM-Projekte zur Erweiterung Ihres Machine-Learning-Portfolios

Große Sprachmodelle (LLMs) sind bei einer Vielzahl von Aufgaben äußerst hilfreich. Die Entwicklung LLM-gestützter Anwendungen kann zunächst recht entmutigend wirken. Aber alles, was Sie brauchen, ist:

So konfigurieren Sie die k-Fold-Kreuzvalidierung

Das k-fache Kreuzvalidierungsverfahren ist eine Standardmethode zur Schätzung der Leistung eines maschinellen Lernalgorithmus für einen Datensatz.

Ein üblicher Wert für k ist 10. Woher wissen wir jedoch, dass diese Konfiguration für unseren Datensatz und unsere Algorithmen geeignet ist?

Ein Ansatz besteht darin, die Auswirkung verschiedener k-Werte auf die Schätzung der Modellleistung zu untersuchen und diese mit einer idealen Testbedingung zu vergleichen. Dies k

Weiterlesen →

Wiederholte k-fache Kreuzvalidierung zur Modellbewertung in Python

Das k-fache Kreuzvalidierungsverfahren ist eine Standardmethode zur Schätzung der Leistung eines Algorithmus oder einer Konfiguration für maschinelles Lernen in einem Datensatz.

Ein einzelner Durchlauf des k-fachen Kreuzvalidierungsverfahrens kann zu einer verrauschten Schätzung der Modellleistung führen. Unterschiedliche Aufteilungen der Daten können zu sehr unterschiedlichen Ergebnissen führen.

Die wiederholte k-fache Kreuzvalidierung bietet eine Möglichkeit, die geschätzte Leis

Weiterlesen →

So verwenden Sie XGBoost für die Zeitreihenprognose

XGBoost ist eine effiziente Implementierung von Gradient Boosting für Klassifizierungs- und Regressionsprobleme.

Es ist sowohl schnell als auch effizient, schneidet bei einem breiten Spektrum prädiktiver Modellierungsaufgaben gut, wenn nicht sogar sogar am besten ab und ist ein Favorit unter den Gewinnern von Data-Science-Wettbewerben, beispielsweise denen von Kaggle.

XGBoost kann auch für Zeitreihenvorhersagen verwendet werden, erfordert jedoch, dass der Zeitreihendatensatz zunäc

Weiterlesen →

Unausgeglichene Klassifizierung mehrerer Klassen

Bei einer unausgewogenen Klassifizierung handelt es sich um Vorhersageaufgaben, bei denen die Verteilung der Beispiele auf die Klassenbezeichnungen nicht gleich ist.

Die meisten Beispiele für unausgeglichene Klassifizierungen konzentrieren sich auf binäre Klassifizierungsaufgaben, doch viele der Tools und Techniken für unausgeglichene Klassifizierung unterstützen auch direkt Klassifizierungsprobleme mit mehreren Klassen.

In diesem Tutorial erfahren Sie, wie Sie die Tools zur unaus

Weiterlesen →

So verwenden Sie Seaborn Data Visualization für maschinelles Lernen

Die Datenvisualisierung bietet Einblick in die Verteilung und Beziehungen zwischen Variablen in einem Datensatz.

Diese Erkenntnisse können bei der Auswahl der vor der Modellierung anzuwendenden Datenaufbereitungstechniken und der für die Daten am besten geeigneten Algorithmentypen hilfreich sein.

Seaborn ist eine Datenvisualisierungsbibliothek für Python, die auf der beliebten Matplotlib-Datenvisualisierungsbibliothek läuft, obwohl sie eine einfache Benutzeroberfläche und ästhetis

Weiterlesen →

Eine sanfte Einführung in die Theorie des computergestützten Lernens

Die rechnergestützte Lerntheorie oder statistische Lerntheorie bezieht sich auf mathematische Rahmenwerke zur Quantifizierung von Lernaufgaben und Algorithmen.

Hierbei handelt es sich um Teilbereiche des maschinellen Lernens, die ein Praktiker des maschinellen Lernens nicht tiefgreifend kennen muss, um bei einer Vielzahl von Problemen gute Ergebnisse zu erzielen. Dennoch handelt es sich um einen Teilbereich, in dem ein umfassendes Verständnis einiger der bekannteren Methoden Einblick in

Weiterlesen →