CIENCIA DE DATOS IBM Artificial Intelligence Comparacion de
CIENCIA DE DATOS IBM Artificial Intelligence; Comparacion de modelos de Clasificacion en Python usando Watson Studio Franco Benko IBM DE CIENCIA DATOS A EN ESP 1 IBM Confidential NOL © 2020 IBM Corporation
2 IBM Confidential © 2020 IBM Corporation
¿ Que datos vamos a usar ? https: //www. kaggle. com/c/titanic/data 3 IBM Confidential © 2020 IBM Corporation
¿ Qué algoritmos vamos a comparar ? ¿ Qué métricas vamos a usar para comparar el desempeño de los algoritmos? K-NN Classifier Accuracy Score Logistic Regression F 1 Score Decision Tree Classifier Recall Random Forest Classifier Precision Naive Bayes Classifier Area Under the ROC Curve SVM Classifier Extra Tree Classifier Ada. Bootsrap Classifier XGBoosting Classifier 4 IBM Confidential © 2020 IBM Corporation
Funciones y librerias que vamos a estar usando: §xgboost §Sklearn conda install -c conda-forge xgboost from sklearn. metrics import f 1_score import xgboost as xgb from sklearn. metrics import accuracy_score from xgboost. sklearn import XGBClassifier from sklearn. metrics import classification_report from sklearn. model_selection import Grid. Search. CV from sklearn. model_selection import train_test_split from sklearn. metrics import plot_precision_recall_curve from sklearn. metrics import plot_roc_curve from sklearn. neighbors import KNeighbors. Classifier from sklearn. linear_model import Logistic. Regression from sklearn. tree import Decision. Tree. Classifier from sklearn. ensemble import Random. Forest. Classifier from sklearn. naive_bayes import Gaussian. NB from sklearn. svm import SVC from sklearn. ensemble import Extra. Trees. Classifier from sklearn. ensemble import Ada. Boost. Classifier 5 IBM Confidential © 2020 IBM Corporation
Grid Search § Un Grid Search lo que nos permite hacer es probar cada combinacion posible de los parametros que le entreguemos al modelo, para obtener la que mejor se adapte. 6 IBM Confidential © 2020 IBM Corporation
ROC Curve § La curva de ROC ( Receiver Operating Characteristic Curve) es una herramienta muy util para darnos una idea de que tan bueno es nuestro modelo. Consiste en ver la relacion entre los indicadores de Verdaderos Positivos y Verdaderos Negativos. 7 IBM Confidential © 2020 IBM Corporation
Accuracy §Es la metrica en la cual vemos la relacion entre la suma de Verdaderos Positivos y Verdaderos Negativos con la sumatoria de todas las predicciones. 8 IBM Confidential © 2020 IBM Corporation
Precision §Es la metrica en la cual vemos la relacion entre los Verdaderos Positivos y con la sumatoria de todas las predicciones positivas. 9 IBM Confidential © 2020 IBM Corporation
Recall ( Sensitivity ) §Es la metrica en la cual vemos la relacion entre los Verdaderos Positivos y con todos los positivos en el dataset. 10 IBM Confidential © 2020 IBM Corporation
F 1 Score §Es la metrica en la cual un indicador muestra el balance entre los conceptos de Precision y Recall. Un buen indicador F 1 significa que tenemos un pocos casos de Falsos Positivos y Negativos, por lo que las predicciones estarian siendo correctas. 11 IBM Confidential © 2020 IBM Corporation
12 IBM Confidential © 2020 IBM Corporation
- Slides: 12