3 livres pour commencer avec la science des données et l'apprentissage automatique – TechTalks – astuces Blackhat SEO


graphiques de données
Crédit d'image: Depositphotos

Ce message fait partie de "AI Education", une série de messages qui affichent et explorent le contenu éducatif sur la science des données et l'apprentissage automatique. (En collaboration avec Paperspace)

Les compétences en science des données et en apprentissage automatique étant très demandées, les carrières suscitent un intérêt croissant dans les deux domaines. Mais avec tant de livres éducatifs, de didacticiels vidéo et de cours en ligne sur la science des données et l'apprentissage automatique, trouver le bon point de départ peut être assez déroutant.

Les lecteurs me demandent souvent des conseils sur la meilleure feuille de route pour devenir data scientist. Pour être juste, il n'y a pas d'approche unique et tout dépend des compétences que vous possédez déjà. Dans cet article, je discuterai de trois très bons livres d'introduction sur la science des données et l'apprentissage automatique.

Sur la base de votre expérience en mathématiques et en programmation, les deux compétences fondamentales requises pour la science des données et l'apprentissage automatique, vous êtes sûr de trouver un de ces livres un bon point de départ.

Quelles sont les exigences pour l'apprentissage de la science des données et du ML?

Les scientifiques des données et les ingénieurs d'apprentissage automatique sont à la pointe des mathématiques et de la programmation. Pour devenir un bon scientifique des données, vous n'avez pas besoin d'être un codeur de crack qui connaît tous les modèles de conception et les techniques d'optimisation de code. Vous n'avez pas non plus besoin d'avoir un MSc en mathématiques. Mais vous devez en savoir suffisamment sur les deux pour commencer. (Vous devez améliorer vos compétences dans les deux domaines en gravissant les échelons de la science des données et de l'apprentissage automatique.)

Si vous vous souvenez des mathématiques au secondaire, vous avez une base solide pour commencer le voyage vers la science des données. Vous n'avez pas nécessairement à vous souvenir de toutes les formules qu'ils vous ont enseignées à l'école. Mais les concepts de statistiques et de probabilité tels que les médianes et les moyennes, les écarts-types et les distributions normales sont fondamentaux.

Côté codage, il devrait suffire de connaître les bases des langages de programmation populaires (C / C ++, Java, JavaScript, C #). Vous devez avoir une bonne compréhension des variables, des fonctions et du flux de programme (if-else, boucles …) et de la programmation orientée objet. La connaissance de Python est un atout majeur pour plusieurs raisons: Premièrement, la plupart des livres et des cours de science des données utilisent Python comme langue préférée. Deuxièmement, les bibliothèques de science des données et d'apprentissage automatique les plus populaires sont disponibles pour Python. Et enfin, la syntaxe et les conventions de codage de Python diffèrent des autres langages comme C et Java. Il faut un certain temps pour s'y habituer, surtout si vous avez l'habitude de coder avec des accolades et des points-virgules.

Principes de la science des données

Écrit par Sinan Ozdemir, Principes de la science des données est l'une des meilleures intros de science des données que j'ai lues. Le livre maintient le bon équilibre entre les mathématiques et le codage, la théorie et la pratique.

À l'aide d'exemples, Ozdemir vous guide à travers les concepts fondamentaux de la science des données tels que les différents types de données et les étapes de la science des données. Vous apprendrez ce que signifie nettoyer, normaliser et distribuer vos données entre les ensembles de données de formation et de test.

Le livre comprend également un cours de recyclage sur les concepts mathématiques de base tels que les mathématiques vectorielles, les matrices, les logarithmes, les statistiques bayésiennes, etc. Chaque concept mathématique est entrecoupé d'exemples de codage et d'une introduction aux bibliothèques de science des données Python pertinentes pour l'analyse et la visualisation des données. Mais vous devez apporter vos propres compétences en Python. Le livre ne contient pas de cours intensif sur Python ni de chapitre d'introduction au langage de programmation.

couverture de livre de principes de science des données sinan ozdemir
Principes de la science des données, par Sinan Ozdemir

Ce qui rend la courbe d'apprentissage de ce livre particulièrement fluide, c'est qu'il n'entre pas trop profondément dans les théories. Il vous donne juste assez de connaissances pour que vous puissiez tirer le meilleur parti des bibliothèques Python comme Pandas et NumPy, et des classes comme DataFrame et LinearRegression.

Certes, ce n'est pas une plongée profonde. Si vous êtes le genre de personne qui veut aller au fond de chaque concept de science des données et d'apprentissage automatique et apprendre la logique derrière chaque bibliothèque et fonction, Principes de la science des données vous laissera un peu déçu.

Mais encore une fois, comme je l'ai dit, c'est une intro, pas un livre qui vous met sur une carrière dans la science des données. Il vise à vous familiariser avec ce qu'est ce domaine en pleine croissance. Et il fait un excellent travail en réunissant tous les aspects importants d'un domaine complexe en moins de 400 pages.

À la fin du livre, Ozdemir vous présente les concepts d'apprentissage automatique. Par rapport à d'autres manuels de science des données, cette section de Principes de la science des données tombe un peu court, à la fois en théorie et en pratique. Les bases sont là, comme la différence entre l'apprentissage supervisé et non supervisé, mais j'aurais aimé un peu plus de détails sur le fonctionnement des différents modèles.

Le livre vous donne un avant-goût de divers algorithmes ML tels que les modèles de régression, les arbres de décision, les K-means et des sujets plus avancés tels que les techniques d'ensemble et les réseaux de neurones. La couverture est suffisante pour vous mettre en appétit pour en savoir plus sur l'apprentissage automatique.

La science des données à partir de zéro

Comme son nom l'indique, La science des données à partir de zéro vous guide à travers les bases de la science des données. L'auteur, Joel Grus, a fait un excellent travail pour vous montrer tous les détails du chiffrement de la science des données. Et le livre contient de nombreux exemples et exercices qui correspondent à la théorie.

Le livre propose un cours intensif sur Python, ce qui est bon pour les programmeurs qui ont une bonne connaissance d'un autre langage de programmation mais qui n'ont aucune expérience en Python. Ce qui est vraiment bien à propos de l'introduction de Grus à Python, c'est que, à part les éléments de base, il vous guide à travers quelques-uns des tableaux avancés et des fonctionnalités de gestion des tableaux que vous ne trouverez pas dans les livres de didacticiels Python courants, comme la compréhension de liste, instructions, itérables et générateurs, et d'autres outils très utiles.

La science des données à partir de zéro deuxième édition joel grus
La science des données à partir de zéro, par Joel Grus

En outre, la deuxième édition de La science des données à partir de zéro, publié en 2019, tire parti de certaines des fonctionnalités avancées de Python 3.6, y compris les annotations de type (que vous adorerez si vous venez d'un langage fortement typé comme C ++).

Ce qui fait La science des données à partir de zéro un peu différent des autres manuels de science des données est la façon unique de tout faire … encore une fois. Plutôt que de vous présenter les fonctions NumPy et Pandas qui calculent les coefficients et les erreurs absolues moyennes (MAE) et les erreurs quadratiques moyennes (MSE), par exemple, Grus vous montre comment le coder vous-même.

Il vous rappelle, bien sûr, que l'exemple de code du livre est destiné à la pratique et à l'éducation et ne correspond pas à la vitesse et à l'efficacité des bibliothèques professionnelles. À la fin de chaque chapitre, il fournit des références à la documentation et aux didacticiels des bibliothèques Python qui correspondent au sujet que vous venez d'apprendre. Mais la nouvelle approche est néanmoins amusante, surtout si vous êtes une de ces personnes, j'ai besoin de savoir ce qui se passe sous le capot.

Une chose à garder à l'esprit avant de plonger dans ce livre est d'apporter vos compétences en mathématiques. Dans le livre, Grus code les fonctions mathématiques de base, allant des mathématiques vectorielles simples aux concepts statistiques plus avancés tels que le calcul des écarts-types, des erreurs et de la descente de gradient. Cependant, il suppose que vous savez déjà comment fonctionnent les mathématiques. Je pense que ça va si vous êtes d'accord avec simplement copier le code et le voir fonctionner. Mais si vous avez choisi ce livre parce que vous voulez tout comprendre, ayez votre manuel de calcul à portée de main.

Après la base, La science des données à partir de zéro aborde l'apprentissage automatique et aborde différents algorithmes, y compris les différentes saveurs des modèles de régression et des arbres de décision. Vous découvrirez également les bases des réseaux de neurones, suivi d'un chapitre sur l'apprentissage en profondeur et d'une introduction au traitement du langage naturel.

Science des données avec Python

En bref, je décrirais Science des données avec Python comme une introduction entièrement pratique à la science des données et à l'apprentissage automatique. C'est le livre le plus pratique sur la science des données et l'apprentissage automatique que j'ai lu. Les auteurs ont fait un excellent travail en réunissant les bons échantillons de données et le code d'exercice pour vous familiariser avec les principes de la science des données et de l'apprentissage automatique.

Le livre contient un contenu théorique minimal et vous apprend principalement en vous guidant à travers des laboratoires de codage. Si vous avez un ordinateur décent et une installation d'Anaconda ou d'un autre package Python inclus avec les ordinateurs portables Jupyter, vous pouvez probablement parcourir tous les exercices avec un minimum d'effort. Je recommande fortement d'écrire le code vous-même et d'éviter de le copier à partir du livre ou des fichiers d'exemple, car le but du livre est d'apprendre en pratiquant.

Science des données avec Python par Rohan Chopra
Data Science avec Python, par Rohan Chopra, Aaron England et Mohamed Noordeen Alaudeen

Vous ne trouverez pas d'introduction Python ici. Vous plongez directement dans NumPy, Pandas et scikit-learn. En outre, il n'approfondit pas les concepts mathématiques tels que les corrélations, les calculs d'erreurs, les scores z, etc., vous devriez donc obtenir de l'aide de votre livre de mathématiques lorsque vous avez besoin d'une mise à jour sur l'un des sujets.

Vous pouvez également simplement taper le code et voir comment les bibliothèques de Python opèrent leur magie. Science des données avec Python vous montrer comment assembler les bonnes pièces pour chaque projet de science des données et d'apprentissage automatique.

Science des données avec Python fournit une introduction solide à la préparation et à la visualisation des données, puis vous guide à travers une riche gamme d'algorithmes d'apprentissage automatique et d'apprentissage en profondeur. Il existe de nombreux bons exemples et modèles que vous pouvez utiliser pour d'autres projets. Le livre fournit également une introduction à XGBoost, une bibliothèque d'optimisation très utile et la bibliothèque du réseau de neurones Keras. Vous pourrez également jouer avec les réseaux de neurones convolutifs (CNN), pierre angulaire des avancées actuelles en vision par ordinateur.

Avant de commencer ce livre, je vous recommande fortement de parcourir un livre d'introduction plus doux qui couvre plus de théorie, comme Ozdemir & # 39; s Principes de la science des données. Cela rend le trajet moins déroutant. La combinaison des deux vous donne une base très solide pour aborder des sujets plus avancés.

Où allez-vous d'ici?

Ce ne sont que trois des nombreux livres sur la science des données. Si vous avez lu d'autres excellents livres sur ce sujet, partagez votre expérience dans la section commentaires. Il existe également de nombreux cours interactifs en ligne, tels que Machine Learning A-Z d'Udemy: Python pratique et R en science des données (je les examinerai dans les semaines à venir).

Alors qu'une introduction à la science des données vous donnera une bonne position dans le monde de l'apprentissage automatique et du domaine plus large de l'intelligence artificielle, il y a beaucoup de place pour élargir ces connaissances.

Pour construire sur cette base, vous pouvez approfondir votre apprentissage automatique. Il y a plein de bons livres et de bons cours. L'une de mes préférées est celle d'Aurélien Geron Apprentissage automatique pratique avec Scikit-Learn, Keras et TensorFlow (également prévu pour révision dans les prochains mois). Vous pouvez également approfondir l'une des sous-disciplines du ML et de l'apprentissage en profondeur, telles que CNN, la PNL ou le renforcement de l'apprentissage.

L'intelligence artificielle est compliquée, déroutante et excitante à la fois. La meilleure façon de le comprendre est de ne jamais arrêter d'apprendre.

COMMENT LES MOTEURS DE RECHERCHE LUTTENT CONTRE UN BLACK HAT SEO ? Les Black Hats SEO sont à l’origine d’un paupérisation de l’internet. Ils vont manipuler les résultats des moteurs de recherche : les plus admirables plateformes web la toile ainsi qu’à plateformes web les plus pertinents ne sont plus dans premières positions. Cela est un impact négatif sur l’expérience utilisateur. Les robots de recherche luttent malgré Black Hats SEO : grâce à des algorithmes comme Google Penguin et Google Panda. Ils sont de plus en plus malins et de plus en plus regardants. Le but de l’équipe dédiée de Google, Google Search Quality Team, est de lutter opposé le spamming et les autres secret de Black Hat SEO. Les algorithmes sont corrigés : plus performants, elles contrôlent plus de critères qu’avant.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *