Natasha, uma cientista de dados, está trabalhando com um c

#Questão 1047238 - Programação, Linguagens de programação, FGV, 2022, TCU, Auditor Federal de Controle Externo

Natasha, uma cientista de dados, está trabalhando com um conjunto de dados sobre carros para fazer um modelo preditivo para uma companhia de seguros. A primeira versão do modelo utiliza apenas informações básicas sobre os carros: a marca e a cor.
Como esses dados são categóricos, Natasha faz um pré-processamento usando a biblioteca scikit-learn. Em um ambiente interativo, ela executa os comandos a seguir. 
>>> from sklearn.preprocessing import OneHotEncoder >>> enc = OneHotEncoder() >>> X = [['Toyota', 'vermelho'], ['Toyota', 'verde'], ['BMW', 'vermelho']]
>>> enc.fit(X) >>> enc.get_feature_names() array(['x0_BMW', 'x0_Toyota', 'x1_verde', 'x1_vermelho'], dtype=object)
>>> X_prime = enc.transform(X).toarray() >>> X_prime array([[0., 1., 0., 1.], [0., 1., 1., 0.], [1., 0., 0., 1.]]) 

Para contar o número de carros da marca Toyota no conjunto de dados, obtendo corretamente o resultado 2, Natasha pode usar a seguinte linha de código:

Navegue em mais questões

{TITLE}

{CONTENT}

{TITLE}

{CONTENT}
Estude Grátis