Estatística Conhecimentos de estatística
Ano: 2022
Banca: FGV
Uma fábrica de tecidos está analisando os salários de seus empregados que trabalham em tempo integral. Quase todas as mulheres trabalham no setor escriturário, enquanto os homens, em sua maioria, trabalham na produção, o que faz com que as distribuições salariais difiram entre si. A tabela fornece o número e o percentual de mulheres e homens que se encontram em cada faixa salarial (em salários mínimos).

Imagem associada para resolução da questão

O salário mediano das mulheres e dos homens se encontram, respectivamente, nas faixas salariais:
Estatística Conhecimentos de estatística
Ano: 2022
Banca: FGV
Uma sociedade empresária precisa decidir sobre o uso de 3 algoritmos distintos em uma tarefa específica. Então, fez um experimento onde aplicou cada um dos algoritmos de forma aleatória em um conjunto de tarefas similares, medindo sua performance. Os resultados estão na tabela a seguir:

Imagem associada para resolução da questão

Se a performance é representada por Y e sabendo-se que
Imagem associada para resolução da questão
e os demais pressupostos inferenciais são atendidos, deseja-se saber se há evidências estatísticas que ao menos um algoritmo tenha perform...
Estatística Conhecimentos de estatística
Ano: 2022
Banca: FGV
Em um trabalho de pesquisa, as idades das pessoas são: 23, 27, 32, 33, 34, 35, 36, 38, 42, 56 e 58. Deseja-se construir um boxplot similar ao gráfico a seguir. 

Imagem associada para resolução da questão

No boxplot acima, os valores das estatísticas nas posições indicadas pelas letras A, B, C, D, E e F são: 
Estatística Conhecimentos de estatística
Ano: 2022
Banca: FGV
A aplicação do algoritmo AdaBoost, utilizando classificadores SVM, permitiu a obtenção de um modelo classificador de sinais sonoros com excelente precisão. Entretanto, esse modelo possui requisitos computacionais além da capacidade da plataforma onde se deseja aplicá-lo.
Considerando o problema acima descrito, a técnica a ser utilizada para contornar o problema é: 
Estatística Conhecimentos de estatística
Ano: 2022
Banca: FGV
Para realizar o agrupamento de um conjunto de 4 observações (A, B, C e D) foi decidido usar o método de agrupamento hierárquico aglomerativo com ligação simples (single-linkage).
A matriz de distância inicial entre os elementos é apresentada a seguir.

Imagem associada para resolução da questão

Considerando essas informações, a matriz de distância obtida após o primeiro passo do agrupamento é:
Estatística Conhecimentos de estatística
Ano: 2022
Banca: FGV
A atividade de classificação de documentos envolve um grande número de tarefas de processamento de linguagem natural, o que pode levar a dúvidas quanto a sua aplicação.
A alternativa que contém apenas tarefas que sejam exemplos de classificação de documentos é:
Estatística Conhecimentos de estatística
Ano: 2022
Banca: FGV
Um modelo semântico vetorial foi criado com a seguinte definição:

 v(w)i = tf(w, di) ? idf(w, D)

onde v é o vetor correspondente à palavra w, di é o i-ésimo documento da coleção D de artigos da Wikipédia, ordenados alfabeticamente por título, e tf e idf são, respectivamente, as funções de frequência de termo e inverso da frequência em documentos.
A alternativa que classifica corretamente o modelo acima descrito e apresenta a razão correta para a classificação é: 
Estatística Conhecimentos de estatística
Ano: 2022
Banca: FGV
Um problema comum no processamento de texto é o tratamento de termos compostos por mais de um token, tais como “Ministério Público”, tal que represente uma unidade linguística distinta, em particular na construção de modelos de linguagem.
Considerando o problema acima descrito, a alternativa que apresenta uma técnica usada para sua resolução é:
Estatística Conhecimentos de estatística
Ano: 2022
Banca: NC-UFPR
Considere a seguinte situação na área epidemiológica:
Durante os anos 1980, aproximadamente 22.000 médicos com mais de 40 anos concordaram em participar de um estudo de longo prazo chamado Physicians’ Health Study. Uma questão investigada foi se a aspirina ajuda a diminuir a ocorrência de enfarto. Os médicos foram aleatoriamente designados para tomar aspirina ou tomar placebo.

(Disponível em: Agresti, A.; Franklin, C. The Art and Science of Learning from Data. Pearson New International. Edição do Kindle.)

Sobre o delineamento do estudo apresentado, é correto afirmar:
100 Q1013007
Estatística Conhecimentos de estatística
Ano: 2022
Banca: NC-UFPR
Um estudo sobre a relação entre X: renda anual (em dólares) e Y: anos completos de estudo resultou em um coeficiente de correlação linear de Pearson entre X e Y, rXY = 0,907. Considerando as informações apresentadas, assinale a alternativa correta.