Questões de Estatística da FGV

#Questão 1013076 - Estatística, Conhecimentos de estatística, FGV, 2022, MPE-SC, Analista de Dados e Pesquisa

Um modelo semântico vetorial foi criado com a seguinte definição:

v(w)i = tf(w, di) ? idf(w, D)

onde v é o vetor correspondente à palavra w, di é o i-ésimo documento da coleção D de artigos da Wikipédia, ordenados alfabeticamente por título, e tf e idf são, respectivamente, as funções de frequência de termo e inverso da frequência em documentos.
A alternativa que classifica corretamente o modelo acima descrito e apresenta a razão correta para a classificação é:

A) latente, pois v(w) descreve uma distribuição de tópicos em D;

B) latente, pois o modelo produz vetores densos;

C) explícito, pois há uma interpretação intrínseca ao modelo para cada dimensão dos vetores;

D) latente, pois o modelo é construído de forma não supervisionada;

E) explícito, pois a informação do modelo é específica a um corpus.

#Questão 1013077 - Estatística, Conhecimentos de estatística, FGV, 2022, MPE-SC, Analista de Dados e Pesquisa

A atividade de classificação de documentos envolve um grande número de tarefas de processamento de linguagem natural, o que pode levar a dúvidas quanto a sua aplicação.
A alternativa que contém apenas tarefas que sejam exemplos de classificação de documentos é:

A) análise de sentimento, tokenização;

B) POS-tagging, reconhecimento de entidades nomeadas;

C) filtragem de SPAM, análise de sentimento;

D) análise sintática, POS-tagging;

E) filtragem de stopwords, reconhecimento de linguagem.

#Questão 1013078 - Estatística, Conhecimentos de estatística, FGV, 2022, MPE-SC, Analista de Dados e Pesquisa

Para realizar o agrupamento de um conjunto de 4 observações (A, B, C e D) foi decidido usar o método de agrupamento hierárquico aglomerativo com ligação simples (single-linkage).
A matriz de distância inicial entre os elementos é apresentada a seguir.

Imagem associada para resolução da questão

Imagem associada para resolução da questão

Considerando essas informações, a matriz de distância obtida após o primeiro passo do agrupamento é:

A)