Uma fábrica de tecidos está analisando os salários de seus empregados que trabalham em tempo integral. Quase todas as mulheres trabalham no setor escriturário, enquanto os homens, em sua maioria, trabalham na produção, o que faz com que as distribuições salariais difiram entre si. A tabela fornece o número e o percentual de mulheres e homens que se encontram em cada faixa salarial (em salários mínimos).
O salário mediano das mulheres e dos homens se encontram, respectivamente, nas faixas salariais:
Uma sociedade empresária precisa decidir sobre o uso de 3 algoritmos distintos em uma tarefa específica. Então, fez um experimento onde aplicou cada um dos algoritmos de forma aleatória em um conjunto de tarefas similares, medindo sua performance. Os resultados estão na tabela a seguir:
Se a performance é representada por Y e sabendo-se que e os demais pressupostos inferenciais são atendidos, deseja-se saber se há evidências estatísticas que ao menos um algoritmo tenha perform...
Em um trabalho de pesquisa, as idades das pessoas são: 23, 27, 32, 33, 34, 35, 36, 38, 42, 56 e 58. Deseja-se construir um boxplot similar ao gráfico a seguir.
No boxplot acima, os valores das estatísticas nas posições indicadas pelas letras A, B, C, D, E e F são:
A aplicação do algoritmo AdaBoost, utilizando classificadores SVM, permitiu a obtenção de um modelo classificador de sinais sonoros com excelente precisão. Entretanto, esse modelo possui requisitos computacionais além da capacidade da plataforma onde se deseja aplicá-lo. Considerando o problema acima descrito, a técnica a ser utilizada para contornar o problema é:
Para realizar o agrupamento de um conjunto de 4 observações (A, B, C e D) foi decidido usar o método de agrupamento hierárquico aglomerativo com ligação simples (single-linkage). A matriz de distância inicial entre os elementos é apresentada a seguir.
Considerando essas informações, a matriz de distância obtida após o primeiro passo do agrupamento é:
A atividade de classificação de documentos envolve um grande número de tarefas de processamento de linguagem natural, o que pode levar a dúvidas quanto a sua aplicação. A alternativa que contém apenas tarefas que sejam exemplos de classificação de documentos é:
Um modelo semântico vetorial foi criado com a seguinte definição:
v(w)i = tf(w, di) ? idf(w, D)
onde v é o vetor correspondente à palavra w, di é o i-ésimo documento da coleção D de artigos da Wikipédia, ordenados alfabeticamente por título, e tf e idf são, respectivamente, as funções de frequência de termo e inverso da frequência em documentos. A alternativa que classifica corretamente o modelo acima descrito e apresenta a razão correta para a classificação é:
Um problema comum no processamento de texto é o tratamento de termos compostos por mais de um token, tais como “Ministério Público”, tal que represente uma unidade linguística distinta, em particular na construção de modelos de linguagem. Considerando o problema acima descrito, a alternativa que apresenta uma técnica usada para sua resolução é:
Considere a seguinte situação na área epidemiológica: Durante os anos 1980, aproximadamente 22.000 médicos com mais de 40 anos concordaram em participar de um estudo de longo prazo chamado Physicians’ Health Study. Uma questão investigada foi se a aspirina ajuda a diminuir a ocorrência de enfarto. Os médicos foram aleatoriamente designados para tomar aspirina ou tomar placebo.
(Disponível em: Agresti, A.; Franklin, C. The Art and Science of Learning from Data. Pearson New International. Edição do Kindle.)
Sobre o delineamento do estudo apresentado, é correto afirmar:
Um estudo sobre a relação entre X: renda anual (em dólares) e Y: anos completos de estudo resultou em um coeficiente de correlação linear de Pearson entre X e Y, rXY = 0,907. Considerando as informações apresentadas, assinale a alternativa correta.