Como a Visão Computacional funciona?

visão computacional

Falamos em posts anteriores sobre o mercado e os benefícios da Visão Computacional, também conhecida por AI Vision ou Visão por Inteligência Artificial.

De fato, a solução amplia a capacidade de controle de qualidade e de segurança do trabalho, segurança patrimonial e do capital humano.

Em tempos de Covid-19, por exemplo, um sistema como esse pode perfeitamente controlar se todos estão usando máscara no local de trabalho e se estão garantindo a distância recomendada entre pessoas. E foi usado para identificar chapas de Raio X de portadores de Covid-19, diferenciando-as de outras doenças, como a pneumonia.

Dá para fazer muita coisa com a Visão Computacional. Ela pode ser usada para inspeções e todo tipo de contagem, na identificação de objetos, ações e classificação de imagem, entre outras. Mas como funciona?

 

fundamentos

Em seres humanos, a luz passa pela íris, córnea e retina, onde há sensores para cores e intensidade que enviam a informação ao cérebro, via nervo ótico.

Num computador, uma lente capta a luz e a direciona para um sensor, que registra cada pixel e o relaciona a uma frequência de onda. O computador não vê uma imagem, mas uma matriz de números, onde cada número representa uma determinada cor e uma determinada intensidade.

Abaixo, o que seria a visão de um rosto para um computador:

 

Duas tecnologias ensinam máquinas a automatizar tarefas: Machine Learning e Deep Learning, ambas apoiadas na Inteligência Artificial. Mas há diferenças entre elas. Em Machine Learning, máquinas necessitam que um cientista de dados defina atributos, de forma que possam aprender por repetição.

Para detectar fraudes, por exemplo, um cientista de dados tem que definir o que é uma fraude, é preciso definir parâmetros e algoritmos.

Machine Learning é um ótimo modelo, cuja automação traz imensos benefícios para empresas, mas não funciona se houver uma grande variedade de dados.

Deep Learning, por sua vez, necessita de grande volume de dados para detectar características e similaridades. O sistema extrai as características e aprende sozinho, sem que seja preciso a intervenção de um cientista de dados.

O aprendizado é feito por redes neurais, que aprendem a partir de amostras e precisam de centenas delas  para ter acuracidade.

A Visão Computacional usa justamente o Deep Learning para interpretar e catalogar aquilo que é visto em imagens e vídeos. Assim, com as redes neurais, computadores podem classificar imagens, detectar objetos ou pessoas e reconhecer movimentos.

Este exemplo do grampeador já se tornou um clássico e mostra a diferença entre as duas tecnologias:

Com a Visão Computacional/Deep Leaning, o treinamento da máquina é feito a partir de centenas de imagens apresentadas. O sistema detecta as características comuns a elas e aprende que um grampeador, por exemplo, pode ser redondo, colorido, amassado… não importa o tamanho ou formato.

As similaridades são extraídas e, a partir delas, haverá a indicação de qual a probabilidade de uma nova imagem corresponder a um grampeador.

A acurácia é maior quanto mais imagens são apresentadas durante a fase de treinamento. Ou seja, quanto maior for o dataset existente para comparação, melhor.

 

Depois da fase de treinamento, já se tem o modelo para a próxima fase, chamada de inferência: dados novos (ou imagens, ou vídeos) são apresentados para que haja o reconhecimento, medindo-se a eficiência.

O índice de erros do Deep Learning chegou a 3% ainda em 2016, menor do que o índice de erro humano, de 5%. É uma ferramenta muito, muito precisa.

Numa fábrica, imagens podem ser coletadas por um tablet ou por smartphones, conectados a um servidor. O sistema é fácil de usar. Com o IBM Visual Insights, o passo a passo é feito de forma simples, com interfaces gráficas que facilitam o entendimento.

Não é preciso ser técnico ou inserir codificações. Só será preciso classificar imagens em categorias, assinalando qual imagem pertente a qual categoria.

Para detectar defeitos, por exemplo, imagens de um produto correto e de produtos com diferentes defeitos são apresentadas. A partir daí, qualquer novo problema, mesmo que não tenha surgido ainda, será detectado. Categorize, treine, implemente, eis a receita para a Visão Computacional.

Quer saber mais sobre o assunto? Entre em contato conosco.

Fonte: IBM e André Queiroz, arquiteto de soluções da Lanlink.

Site Footer