Score muito baixo

Oi pessoal!

Preenchi fiz o seguinte tratamento dos dados faltantes:

  • TP_ENSINO, TP_DEPENDENCIA_ADM_ESC,Q027 -> SUBSTITUIR O MAIS FREQUENTE
  • NU_NOTA_CN, NU_NOTA_CH, NU_NOTA_LC, NU_NOTA_MT, NU_NOTA_COMP1, NU_NOTA_COMP2, NU_NOTA_COMP3, NU_NOTA_COMP4, NU_NOTA_COMP5,NU_NOTA_REDACAO -> substituir com 0
  • TP_STATUS_REDACAO -> substituir com 4(em branco)

E depois aplicar um modelo de regressão linear do skit.
Eu tive um score muito baixo, de 6.8
Mas eu não sei o que fiz de errado? Alguém consegue me ajudar?

Eu sou nova aqui… tentei fazer o code review e não consegui…

Obrigada!

Olá @Rabbit1ba, seja bem vinda!
Você já deu uma conferida nas outras postagens similares como esta Baixo Indice de acerto Consistentemente?

E, @wesleyjr0101 Consegue dar uma ajuda aqui?

Opa. Então, em relação ao meu post, eu nunca resolvi esse problema, não importa o que eu faça e como aborde o problema, não passei nem de 10% de acerto.

Eu nunca consegui acima de 7% também. Por via das dúvidas deixei o dataset e aberto lá no kaggle.

Tentei algumas coisas, como usar xgboost, eliminar colunas com mais de 50% de dados faltantes, imputar dados pela mediana, ou pela frequencia… mas aparentemente nada funciona…

O pior é que quando avalio a performance com cross validation, usando mean absolute error, dá umas médias ridiculamente baixas (alto índice de acerto)… Mas não vai nem a pau… algumas pessoas na outra thread disseram que conseguiram…