Monitorização de modelos de Machine Learning: tipos de desvio

ESTE ARTIGO EM 5 SEGUNDOS:

Este artigo faz parte de uma série de conteúdos dedicados à explicação das várias fases da implementação de uma solução de Data Science, sendo este a continuação dos artigos ‘Assessment de Data Science: como analisar a viabilidade de um projeto’ e do ‘Assessment de Data Science: criar modelos de machine learning’.

Uma vez decidido qual o melhor tipo de modelo de Machine Learning, é necessário ter em mente que os modelos em produção, provavelmente, vão receber conjuntos de dados com diferentes padrões em comparação com aqueles que foram treinados. Este fenómeno poderá levar à queda de performance em comparação com os resultados obtidos na fase de treino. Portanto, é preciso detetar estas mudanças de performance, identificar quais as causas para as discrepâncias e, finalmente, agir de forma mais apropriada para manter os melhores resultados possíveis. Descubra mais sobre monitorização de modelos de machine learning.

Monitorização de modelos de machine learning: tipos de desvio (drift)

Um modelo de machine learning não só precisa de uma monitorização regular como um software tradicional, ou seja, assegurar que o processo é estável e que corre como esperado, mas também é necessário ter em atenção problemas relacionados especificamente com machine learning. Um destes problemas é o desvio. Existem três tipos principais de desvio que têm impacto nos problemas de aprendizagem automática: covariância, probabilidade prévia e de conceito. Nas próximas secções são definidos os conceitos destes três tipos de desvio e é dado um exemplo dentro do contexto de um modelo de deteção de correio eletrónico spam.

1. Desvio de covariância

O desvio de covariância ocorre quando a distribuição do conjunto de dados de input ?(?) varia, mas a relação funcional entre os atributos e os resultados ?(?|?) previstos (target) mantém.

No caso da deteção de e-mails spam, isto pode acontecer quando novas condições surgem devido ao fato de um novo software estar a ser utilizado, ou quando existe uma melhoria nas estratégias utilizadas pelos spammers. Estas mudanças alteram o conteúdo dos e-mails, contudo, não alteram o facto de um e-mail ser considerado spam ou não.

2. Desvio de probabilidade prévia

Este tipo de desvio refere-se à mudança de distribuição de previsões alvo (target) ?(?), ou seja, a distribuição de probabilidades prévia da classe alvo varia entre os dados teste e os dados treino, mas a relação entre os atributos e a classe alvo ?(?|?) mantém-se inalterada.

No exemplo referido, isto poderá acontecer quando há um fluxo nos e-mails de spam que seguem os mesmos padrões do conjunto de dados de treinamento.

3. Desvio de conceito

Desvio de conceito refere-se aos casos em que a definição da classe alvo varia, isto é, quando ?(?) não é alterado, mas ?(?|?) varia de treino para teste.

Isto pode surgir quando há uma mudança na política da empresa, o que poderá e levar que um grupo de e-mails de um determinado domínio sejam considerados spam.

Combinação de desvios

Na prática, estes fenómenos, normalmente, surgem ao mesmo tempo. Por exemplo, quando surge uma nova forma de e-mails phishing, ocorre um desvio de covariância pois o novo formato do e-mail não estava presente no conjunto de dados treino. Para além disso, também ocorre um desvio de probabilidade prévia devido ao aumento de número de e-mails considerados spam. Finalmente, ocorre um desvio de conceito porque os padrões que indicam que o novo formato de e-mail é spam não se encontram no conjunto de dados treino.

Detetar o desvio

É importante conseguir identificar estes desvios para entender a qualidade de um modelo, e, assim, mitigar os maiores problemas que advêm da degradação associada. Para garantir a estabilidade, é essencial monitorizá-los continuamente e ajustar conforme necessário. Uma possível abordagem é configurar ferramentas capazes de detetar os desvios e re-treinar os modelos regularmente, para, assim, garantir que mantenham a sua eficácia e precisão ao longo do tempo.

Tendo em conta o tipo de desvios, é importante saber identificá-los e saber adaptar estratégias para cada um.

1. Desvio de covariância

A detecção do desvio de covariância é provavelmente a mais direta, não exige que se conheça todo o contexto do grupo dos dados de teste, mas, no entanto, também pode ser a solução com mais ruído (noise) associado. Assim, torna-se mais complicado conseguir identificar concretamente os motivos principais deste acontecer e arriscar soluções que não terão um impacto relevante no desempenho do modelo.

A estratégia mais comum é utilizar um teste estatístico comparando a distribuição de cada atributo entre o conjunto de dados de referência e os novos dados. Embora se chegue facilmente à conclusão de que esta estratégia não é a melhor solução para identificar as dependências entre os atributos, observando-se um ruído notável durante a sua análise, que se deve ao número de pares de atributos crescer de forma quadrática com o número de atributos, assumindo que as suas distribuições individuais se mantenham. Se a interação entre dois atributos é particularmente relevante para o correto funcionamento de um modelo, então pode-se considerar monitorizá-la com um teste estatístico na distribuição conjunta.

2. Desvio de Probabilidade Prévia

A identificação do desvio de probabilidade prévia é feita sabendo o contexto completo dos novos dados. O processo de conhecer o contexto dos dados não é, muitas vezes, um processo linear, o que torna o método menos reativo, no entanto, é um melhor método de identificar o desvio do que com a covariância porque tem em conta o contexto com que os dados de treino foram classificados pela equipa de Data Science.

3. Desvio de Conceito

Conseguir identificar o desvio de conceito é fundamental visto que, mesmo um modelo com boas capacidades de extrapolação, será afetado. Assim, como o desvio de probabilidade prévia, é necessária uma boa contextualização dos novos dados para conseguir identificar este tipo de desvio, e depois ter-se em conta a performance do modelo. Portanto, se a sua performance decair com os novos dados em relação aos dados de treino – e não há indicadores de que estejamos perante um desvio de covariância ou de probabilidade prévia – então, é provável que exista um desvio de conceito.

Como reduzir as consequências de desvio de dados?

Se o desvio de dados está a afetar os resultados do modelo com frequência, então uma análise atenta à causa do seu desvio deverá ser feita. É possível que alguns atributos estejam a sofrer um desvio de covariância e alguma engenharia de dados seja necessária para mitigar esse efeito. Por exemplo, removendo os efeitos sazonais ou trabalhar com valores relativos em vez de valores absolutos.

Portanto, quando o desempenho de um modelo diminui devido ao desvio, idealmente o modelo deve ser re-treinado. Mas quando é que chegamos a esse ponto? Uma abordagem será automatizar o processo de deteção usando um conjunto de métricas ou eventos. Isto garante que o modelo é imediatamente atualizado quando não atinge os resultados mínimos de performance impostos.

Outra abordagem possível para monitorizar modelos é a deteção semiautomática. Aqui, as condições serão definidas e, quando atendidas, um alerta é dado aos programadores indicando qual a ação necessária a efetuar sobre o modelo. Este método é útil quando o desvio não é facilmente detetável por um sistema automatizado, como no caso de modelos mais complexos, ou quando os dados são altamente variáveis.

Pensamentos Finais

A performance de um modelo de ML, regra geral, é volátil e pode diminuir devido a alterações nos dados. Isto ocorre quando o modelo processa novos dados, quando surgem discrepâncias entre os dados usados para teste e os usados para treino e, até mesmo, com novas interpretações dos dados.

Para mitigar os problemas associados aos desvios de dados, é importante estar atento e compreender estes três tipos possíveis de desvio que possamos encontrar nos modelos. De forma que consigamos identificar precisamente o tipo de desvio com que estamos a lidar e, a partir daí, formular hipóteses para a causa, ou causas reais do problema e saber que tipo de solução aplicar.

É importante entender as necessidades das empresas com as quais trabalhamos e concluir qual é a melhor abordagem de monitorização. Uma solução totalmente automatizada nem sempre é possível em contextos de dados altamente complexos.

A nossa equipa compreende perfeitamente o quão crucial é a monitorização de modelos de machine learning, e compreender e saber abordar os desvios de dados associados aos modelos. Faz parte do compromisso da Xpand IT desenvolver os modelos mais eficazes e precisos da área.

João Pinho

Data Scientist – Xpand IT

Cookie	Duração	Descrição
_GRECAPTCHA	5 meses 27 dias	Este cookie é configuirado pelo Google reCAPTCHA protege o nosso site contra ataques de spam nos formulários de contacto.
_icl_visitor_lang_js	1 dia	Este cookie é configurado pelo WPML WordPress plugin guarda o idioma redirecionado.
cookielawinfo-checkbox-[CATEGORIA]	11 months	Este cookie é usado pelo GDPR Cookie Consent plugin guarda o consentimento do visitante da [CATEGORIA].
CookieLawInfoConsent	1 ano	CookieYes define este cookie para registar o estado predefinido do botao correspondente a categoria e o estado do CCPA. Funciona apenas em coordenacao com o cookie principal.
PHPSESSID	sessão	Usado em aplicações PHP nativas, este cookie é usado para armazenar e identificar o ID de sessão exclusivo de um utilizador com a finalidade de gerir a sessão do mesmo no site. É um cookie de sessão e é excluído quando todas as janelas do navegador são fechadas.
viewed_cookie_policy	11 meses	Este cookie usado pelo GDPR Cookie Consent plugin para guardar se o visitante consentiu ou não o use the cookies. Não guarda nenhum dado pessoal.
wpml_browser_redirect_test	sessão	Este cookie é usado pelo WPML WordPress plugin é usado para testar se os cookies estão ativos no browser.

Cookie	Duração	Descrição
__cf_bm	30 minutos	Este cookie é configurado pela CloudFlare para dar suporte ao Cloudflare Bot Management
_os_session	14 days	This cookie does not contain any user-specific information.
abgroups	1 mês	Ativa o grupo A ou B para o teste A/B de funcionalidades.
bscookie	2 anos	Este cookie é usado pelo LinkedIn guarda se o utlizador fez login com multi-factor
CONSENT	2 anos	Este cookie é usado pelo YouTube em videos embebidos e regista dados estatísticos anonimamente.
cxssh_status	3 meses 8 dias	Este cookie determina se o navegador aceita cookies.
lang	sessão	Este cookie é usado pelo LinkedIn para guardar a escolha do idioma do visitante no website linkedin.com.
language	session	Este cookie é usado para guardar a escolha no nosso website.
li_gc	2 anos	Utilizado pelo LinkedIn para armazenar o consentimento dos visitantes em relação ao uso de cookies para fins não essenciais.
lidc	1 dia	Este cookie é usado pelo LinkedIn para facilitar a escolha do datacenter.
ln_or	1 dia	Cookie usada pelo LinkedIn.
VISITOR_INFO1_LIVE	5 meses 27 dias	Este cookie usado pelo YouTube para medir a largura de banda de modo a determinar se o visitante acede à nova ou à antiga interface.
yt-remote-connected-devices	nunca	Este cookie é usado pelo YouTube para guardar as preferências de video do visitante nos videos embebidos.
yt-remote-device-id	nunca	Este cookie é usado pelo YouTube para guardar as preferências de video do visitante nos videos embebidos.

Cookie	Duração	Descrição
__adroll	1 ano 1 mes	Este cookie e definido pela AdRoll para identificar utilizadores em visitas e dispositivos diferentes. e utilizado em leiloes em tempo real para que os anunciantes possam exibir anuncios relevantes.
__adroll_fpc	1 ano	A AdRoll define este cookie para segmentar utilizadores com base no comportamento de navegacao.
__adroll_shared	1 ano 1 mes	A AdRoll define este cookie para recolher informacoes sobre utilizadores em diferentes websites para publicidade relevante.
__ar_v4	1 ano	Este cookie e definido sob o dominio DoubleClick para colocar anuncios que direcionam para o website nos resultados de pesquisa do Google e para monitorizar as taxas de conversao desses anuncios.
_clck	1 ano	A Microsoft Clarity define este cookie para reter o ID do Utilizador Clarity do navegador e definicoes exclusivas para aquele website. Isso garante que as acoes realizadas durante visitas subsequentes ao mesmo website sejam associadas ao mesmo ID do utilizador.
_clsk	1 dia	A Microsoft Clarity define este cookie para armazenar e consolidar as visualizacoes de pagina de um utilizador numa unica sessao de gravacao.
_fbp	3 meses	Este cookie é configurado pelo Facebook para exibir anúncios quando estiver no Facebook ou noutra plataforma digital onde é usada publicidade do Facebook
_ga	2 anos	Este cookie é configurado pelo Google Analytics, calcula dados de visitantes, sessões, campanhas e acompanha o uso do site. O cookie armazena informações anónimas atribuindo um número aleatório para distinguir visitantes únicos.
_ga_*	2 anos	Este cookie é configurado pelo Google Analytics é usado para distinguir os visitantes.
_gat	1 minuto	Este cookie é configurado pelo Google Analytics para limitar a taxa de pedidos e coleta de dados em sites de alto volume tráfego.
_gat_gtag_UA_*	1 minuto	Este cookie é configurado pelo Google Analytics usado para distinguir os visitantes.
_gat_UA-*	1 minuto	Este é configurado pelo Google Analytics, onde o elemento padrão no nome contém um número que identifica o site. É uma variação do cookie _gat usado para limitar a quantidade de dados registados pelo Google em sites de alto volume de tráfego.
_gcl_au	3 meses	O Google Tag Manager define o cookie para experimentar a eficiencia de publicidade em websites que utilizam os seus servicos.
_gd*	sessão	Este cookie é configurado pelo Google Analytics é usado para distinguir os visitantes.
_gid	1 dia	Este cookie é configurado pelo Google Analytics guarda um ID único que é usado para gerar dados estatísticos sobre como o visitante usa o site
_hjAbsolutesessaoInProgress	30 minutos	O Hotjar define este cookie para detetar a primeira visualizacao da pagina de um utilizador, que e um sinal Verdadeiro/Falso definido pelo cookie.
_hjFirstSeen	30 minutos	O Hotjar define este cookie para identificar a primeira sessao de um novo utilizador. Ele armazena o valor verdadeiro/falso, indicando se foi a primeira vez que o Hotjar viu este utilizador.
_hjIncludedInsessaoSample_*	2 minutos	Descricao nao esta atualmente disponivel.
_hjRecordingEnabled	nunca	O Hotjar define este cookie quando uma gravacao comeca e e lido quando o modulo de gravacao e inicializado, para verificar se o utilizador ja esta numa gravacao numa sessao especifica.
_hjRecordingLastActivity	nunca	O Hotjar define este cookie quando uma gravacao de utilizador comeca e quando os dados sao enviados atraves do WebSocket.
_hjsessao_*	30 minutos	O Hotjar define este cookie para garantir que os dados de visitas subsequentes ao mesmo site sejam atribuidos ao mesmo ID de utilizador, que persiste no ID de Utilizador Hotjar, unico para esse site.
_hjsessaoUser_*	1 ano	O Hotjar define este cookie para garantir que os dados de visitas subsequentes ao mesmo site sejam atribuidos ao mesmo ID de utilizador, que persiste no ID de Utilizador Hotjar, unico para esse site.
_te_	sessao	O Grupo Adroll regista um ID unico que identifica o dispositivo de um utilizador que regressa. O ID e utilizado para anuncios direcionados.
319af4c0-e197-4de9-8a9b-fe98c8a2ca04	sessão	O Dynamics 365 Marketing usa esta cookie para agrupar todos os carregamentos de página por um determinado visitante que são registrados pelo mesmo script de análise comportamental e que ocorrem dentro do prazo configurado. Ele considera tudo isto como parte de uma única visita no site.
79f08280-5c63-4331-b04d-fb6f39afda51	2 anos	Esta cookie permite que o Dynamics 365 Marketing pontue leads com base no nível de interação em um determinado site. Não contém informações pessoais, mas identifica exclusivamente um navegador específico em uma máquina específica, e o Dynamics 365 Marketing pode usá-lo para correlacionar essa ID com um contacto real na base de dados do Dynamics 365 Marketing.
AnalyticsSyncHistory	1 mês	Este cookie é usado pelo Linkedin para guardar informação sobre quando ocorreu a sincronização com o cookie lms_analytics para os visitantes dos países selecionados.
anj	3 meses	A AppNexus define o cookie anj, que contem dados sobre se um ID de cookie esta sincronizado com parceiros.
ANONCHK	10 minutos	O cookie ANONCHK, definido pelo Bing, e usado para armazenar o ID da sessao do utilizador e verificar os cliques em anuncios no motor de busca Bing. O cookie ajuda na geracao de relatorios e personalizacao.
bcookie	2 anos	Este cookie é usado pelo LinkedIn adiciona tags quando são usados os botões "share" do Linkedin para identificar o browser.
browser_id	5 anos	Este cookie é usado para identificarmos o browser do visitante quando voltar a visitar o website.
CLID	1 ano	Usada pelo Microsoft Clarity, o objetivo desta cookie é gerar um mapa de calor e uma gravação da sessão.
CLID	1 ano	Usada pelo Microsoft Clarity, o objetivo desta cookie é gerar um mapa de calor e uma gravação da sessão.
CMID	1 ano	A Casale Media define este cookie para recolher informacoes sobre o comportamento do utilizador para publicidade direcionada.
CMPRO	3 meses	A CasaleMedia define o cookie CMPRO para rastreamento anonimo de utilizacao e publicidade direcionada.
CMPS	3 meses	A CasaleMedia define o cookie CMPS para rastreamento anonimo de utilizadores com base nas visitas ao website, exibindo anuncios direcionados.
fr	3 meses	Este cookie é usado pelo Facebook permite mostrar anúncios relevantes aos visitantes, analisando o comportamento do visitante noutros websites que possuem pixel do Facebook ou o plugin social do Facebook.
IDE	1 ano 24 dias	Os cookies Google DoubleClick IDE armazenam informacoes sobre como o utilizador utiliza o website para apresentar anuncios relevantes de acordo com o perfil do utilizador.
KRTBCOOKIE_*	3 meses	A Pubmatic define este cookie para registar um ID unico que identifica o dispositivo do utilizador em visitas posteriores a websites que utilizam a mesma rede de anuncios.
li_sugr	3 meses	O LinkedIn define este cookie para recolher dados sobre o comportamento do utilizador, otimizando o website e tornando os anuncios no website mais relevantes.
MR	7 dias	Este cookie, definido pelo Bing, e usado para recolher informacoes do utilizador para fins de analise.
msd365mkttr	2 anos	O Microsoft Dynamic 365 guarda informações sobre o comportamento do utilizador em vários sites. Esta informação é usada para otimizar a relevância do anúncio no site.
msd365mkttr	2 anos	O Microsoft Dynamic 365 guarda informações sobre o comportamento do utilizador em vários sites. Esta informação é usada para otimizar a relevância do anúncio no site.
msd365mkttrs	sessão	Permite a utilização de um formulário específico, que envia os dados preenchidos pelo utilizador para o Microsoft Dynamic 365.
msd365mkttrs	sessão	Permite a utilização de um formulário específico, que envia os dados preenchidos pelo utilizador para o Microsoft Dynamic 365.
MUID	1 ano	Identifica os navegadores que visitam os sites da Microsoft. Estes cookies são usados para análise de sites e outras finalidades operacionais.
MUID	1 ano	Identifica os navegadores que visitam os sites da Microsoft. Estes cookies são usados para análise de sites e outras finalidades operacionais.
PugT	1 mes	A PubMatic define este cookie para verificar quando os cookies foram atualizados no navegador, a fim de limitar o numero de chamadas ao armazenamento de cookies no lado do servidor.
SM	sessao	O cookie da Microsoft Clarity define este cookie para sincronizar o MUID em dominios Microsoft.
SRM_B	1 ano 24 dias	Usado pela Microsoft Advertising como um ID unico para visitantes.
test_cookie	15 minutos	O doubleclick.net define este cookie para verificar se o navegador do utilizador suporta cookies.
UserMatchHistory	1 mês	Este cookie usado pelo LinkedIn para sincronizar os ID dos Ads.
uuid2	3 meses	O cookie uuid2 e definido pela AppNexus e regista informacoes que ajudam a distinguir entre dispositivos e navegadores. Essas informacoes sao usadas para selecionar anuncios entregues pela plataforma e avaliar o desempenho do anuncio e seu pagamento atribuido.
VISITOR_PRIVACY_METADATA	5 meses 27 dias	Cookie utilizado pelo YouTube para rastrear e enriquecer as configurações de privacidade dos utilizadores na plataforma do YouTube.
vuid	2 anos	Este cookie é configurado pelo Vimeo guarda informação através dos vídeos embebidos, posteriormente permitem rastrear o visitante através de um ID único.
YSC	sessão	Este cookie é usado pelo Youtube para guardar as visualizações de videos do youtube embebidos em páginas.
yt.innertube::nextId	nunca	Este cookie é usado pelo YouTube regista um ID único para guardar quais os vídeos que o visitante visualizou.
yt.innertube::requests	nunca	Este cookie é usado pelo YouTube regista um ID único para guardar quais os vídeos que o visitante visualizou.

Search

Data Science

Monitorização de modelos de Machine Learning: tipos de desvio

ESTE ARTIGO EM 5 SEGUNDOS:

Monitorização de modelos de machine learning: tipos de desvio (drift)

1. Desvio de covariância

2. Desvio de probabilidade prévia

3. Desvio de conceito

Combinação de desvios

Detetar o desvio

1. Desvio de covariância

2. Desvio de Probabilidade Prévia

3. Desvio de Conceito

Como reduzir as consequências de desvio de dados?

Pensamentos Finais

Read more in

Search

Popular Posts

Tags

Portugal

Croácia

Alemanha

Reino Unido

Suécia

Soluções

Centros de Excelência

Tecnologias

Recursos e Novidades

Empresa

Data Science

ESTE ARTIGO EM 5 SEGUNDOS:

Monitorização de modelos de machine learning: tipos de desvio (drift)

1. Desvio de covariância

2. Desvio de probabilidade prévia

3. Desvio de conceito

Combinação de desvios

Detetar o desvio

1. Desvio de covariância

2. Desvio de Probabilidade Prévia

3. Desvio de Conceito

Como reduzir as consequências de desvio de dados?

Pensamentos Finais

Share

Read more in

Business Intelligence: como definir uma estratégia de governance

Framework de BI: a importância de estruturar os pipelines de dados

Assessment de Data Science: criar modelos de machine learning

Search

Popular Posts

Tags

Selecione a sua localização

Portugal

Português

Croácia

Inglês

Alemanha

Alemão

Reino Unido

Inglês

Suécia

Inglês

Global

Inglês