Dataset de Test nao contém a coluna TP_PRESENCA_MT

Boa tarde,

acabei de submeter uma predicao no sistema de voces, mas acabei fazendo uma predicao incorreta, usando o dado de test/validacao. Quando fui fazer uma correcao acabei notando que a coluna TP_PRESENCA_MT nao está presente no dataset de test, eu acabei utilizando essa coluna porque acreditei que ela era um forte indicador da nota de matemática do candidato. Só que se ela nao estiver presente no dataset de test, eu nao consigo validar ou melhorar a minha predicao.

Será que alguém aqui pode me ajudar ?

Boa tarde amigo,

Essa coluna é usada como referência na sua predição. Mas você teria que analisar ela para limpar os dados na tabela train.csv

Ela realmente não existe na tabela test.csv. Dá pra você usar ela para ter alguns Insight sobre os dados apresentados no arquivo de treino.

Espero ter ajudado na sua dúvida.

Boa sorte!

Boa tarde @Gecko64a !!

Primeiramente, obrigado por se interessar pelo tópico. Na verdade, eu nao usei ela pra análise, e sim para fazer uma primeira versao de um modelo simples, usando apenas 4 colunas (TP_PRESENCA_MT e as colunas de notas nas outras disciplinas). O motivo para essa escolha, é que a coluna TP_PRESENCA_MT - indica se um candidato esteve presente ou nao a prova de matemática. O que pra mim, é um excelente preditor para a nota de matemática, já que as pessoas que nao compareceram a esta prova, provavelmente tiraram nota 0.

A questao é, se essa coluna nao está presente no meu dataset de test, eu nao consigo validar ou testar a performace do meu modelo neste dataset. Sendo assim, só conseguiria utilizar as colunas que estao no test.csv. Estou falando alguma bobagem ou é isto mesmo ?

Você esta certo ao inferir que esta coluna já irá filtrar muitos dados para a sua perdição.
Mas para validar seu modelo no test.csv, ela tem que ser removida.

Olá @Pony213, no arquivo de test tem a coluna TP_PRESENCA_LC que é referente a presença na prova de linguagens e códigos que é aplicada no mesmo dia da prova de matemática. Talvez você possa usar ela.

2 Curtidas

Obrigado @Partridge57e,

essa informacao é muito relevante, qual a fonte da informacao que você escreveu aqui. Apenas para que eu coloque no notebook que estou fazendo, mas de toda forma isso pode ajudar muito. Valeu !!

Nessa forma atual do Enem a prova de Português e Matemática sempre foram aplicadas no mesmo dia.

Você pode comprar as colunas TP_PRESENCA_MT e TP_PRESENCA_LC no arquivo de train e verificar se elas possuem os mesmo valores.

Boa @Partridge57e !!

Eu já tinha feito essa checagem… ahahha. Realmente as colunas sao identicas. Já me ajudou muito, consegui melhorar de forma impressionante meu score, só usando essa abordagem. Acho que agora é tentar dar uma tunada no modelo, acrescentando mais features e mudando os parâmetros. Obrigado pelo link, vou acrescentar na minha documentacao.

Boa sorte no desafio também.

@Pony213 não sei se vai te ajudar, mas o dataset de treino veio com muitos mais variáveis do que o de teste, então o que eu fiz e ajudou bastante no meu modelo é filtrar as variáveis de teste no dataset de treino, assim elas ficam com as mesmas quantidades de variáveis.
No dataset de treino tem muita variável descartável e a verdade mesmo é que agente consegue um bom score com poucas variáveis mesmo.

1 Curtida

Eu já consegui atingir um bom score, só alterando a coluna que o @Partridge57e indicou. Agora é questao de testar mais modelos e fazer feature engineering mesmo, já que usei somente 4 features e uma RandomForest sem muita customizacao, mas com certeza um próximo passo vai ser testar as features que estao no dataset de test mesmo.

Valeu e boa sorte aí !!

1 Curtida