Conheça o olho eletrônico de IA para deficientes visuais
Quando se fala em Inteligência Artificial (IA) [1], provavelmente o pensamento mais comum entre as pessoas é a preocupação se esta tecnologia tomará o emprego delas. Ponto! As aplicações IAs estão sendo utilizadas até para escrever textos jornalísticos [2]. O famoso empresário e futurista Peter Diamandis [3] da Singularity University [3.1] disse recentemente que estava “estupefato de quão palpável é o sentimento da mudança exponencial que teremos … e que estava certo de que 99,99% da humanidade não compreende ou aprecia as ramificações do que estão por vir.” A Humanidade ainda não consegue enxergar o que está vindo por aí e, a tecnologia de IA será um componente fundamental dessa transformação exponencial vindoura!
A IA está provocando uma expectativa generalizada em relação a sua utilização por todo o mundo. Alguns pesquisadores acreditam que ela terá impacto em várias áreas de conhecimento e principalmente no mercado de trabalho nos próximos anos [4-5]. Dentre as áreas com maior possibilidade de impacto, a medicina é sem dúvida a mais empolgante e com as maiores expectativas para o aprimoramento de tarefas como o diagnóstico digital [6].
Porém, existem outras aplicações que estão “assustando” e empolgando as pessoas em todo o mundo, como por exemplo, as artes por meio da composição musical e pintura de artes [7]. Temos também a utilização de IA na pintura [8] e, neste nicho, já temos um movimento inédito no Brasil de um grupo de Deep Learning da UFG (Goiás) neste nicho [9].
Um novo uso de IA recente é na área de Inclusão Social. Já tem gente achando que o carro autônomo – baseado fortemente na IA – vai ser um grande instrumento de inclusão dos incapacitados no trânsito [10]. Recentemente na CES 2017 em Las Vegas, a IA apareceu como um instrumento de auxílio cognitivo e companhia aos idosos [11]. Cada vez mais vão aparecer aplicações de IA para a Inclusão Social das pessoas. Pode anotar no seu caderninho!
A geração automática de legendas descritivas de uma imagem é uma tarefa muito próxima do “coração” da compreensão da cena – um dos principais objetivos da visão por computador [12]. Não só os modelos de geração de legendas devem ser suficientemente poderosos para resolver os desafios da visão por computador na identificação de quais objetos estão em uma imagem, mas também devem ser capazes de capturar e expressar seus relacionamentos em uma linguagem natural (como se fosse uma “interpretação semântica” da imagem).
Aplicações nobres
Por esta razão, a geração da legenda de uma imagem tem sido vista como um problema difícil. É um desafio muito importante para os algoritmos de Deep Learning (ou Aprendizado Profundo) [12.1], possibilitar a notável habilidade humana para interpretar enormes quantidades de informação visual que se destacam em uma imagem através de uma linguagem descritiva. Esse problema é conhecimento na literatura como “Generation Image Caption” [13]. A Geração Automática de Legendas de Imagens é uma das aplicações diferenciadas da tecnologia de Deep Learning [14].
Um grande usuário do conceito de Interpretação Automática de Imagens através da tecnologia de Deep Learning é o Facebook (FB). Recentemente, Yann LeCun [15] (um dos “papas” da IA) que é Professor da Universidade de Nova Iorque e Diretor de Pesquisa em IA do FB disse em uma palestra que diariamente de 1 a 1,5 bilhão de fotos são carregadas diariamente no FB (não incluindo aqui o Instagram, WhatsApp ou Messenger).
Adicionalmente, ele informou que “cada uma dessas fotos” (sic!) é processada imediatamente através de duas Redes Neurais Convolucionais (CNN = Convolutional Neural Network [16]). Uma delas reconhece os objetos na imagem e a outra detecta e reconhece as pessoas. Os vídeos carregados no FB também passam por um processo semelhante.
Apesar das preocupações das pessoas em relação a IA, existem aplicações nitidamente nobres, como por exemplo, o “Olho Eletrônico” [17] capaz de descrever as CENAS REAIS para uma pessoa totalmente cega ou com capacidade visual muito reduzida. Tal solução pode ser um excelente dispositivo de Inclusão Social. A boa notícia é que já existem até protótipos desta aplicação (veja aqui o vídeo demonstrativo [17.1]) mostrando a viabilidade deste tipo de iniciativa conforme descreveremos a seguir.
Esta aplicação – baseada na tecnologia de Deep Learning [12.1] – é composta por uma câmera que capta o ambiente e transmite para 04 (quatro) redes neurais artificiais profundas que realizam a compreensão da informação visual que a pessoa não visualiza. Em seguida uma das redes neurais faz a narrativa com voz sintética da informação visual que está presente no momento.
As 04 (quatro) redes neurais artificiais do “Olho Eletrônico” têm as seguintes características de arquitetura: uma Rede Neural Recorrente [18] faz a interpretação do comando de voz do usuário do “Olho Eletrônico”. A versão preliminar do “Olho Eletrônico” incorpora as seguintes frases típicas: (a) “O que tem aqui”; (b) “Tirar foto” e (c) “Seja meus olhos”.
Com estes comandos, a câmera do dispositivo é acionada e captura o ambiente e transmite uma foto para uma Rede Neural Convolucional Inception V3 [19] (uma curiosidade: esta rede neural é inspirada no filme A Origem (“Inception”) com Leornado DiCaprio [20]). Ver aqui a relação de DiCaprio com a tecnologia de Deep Learning [21].
A rede Inception V3 identifica e reconhece os objetos contidos na imagem e transmite para uma outra Rede Neural Recorrente do tipo LSTM (“Long short-term memory”) [22] que monta uma frase textual que descreve a imagem dando lógica semântica à informação. O texto gerado pela rede LSTM é transmitido para uma Rede Neural WaveNet [23] que gera uma voz sintética para que a pessoa possa ouvir a descrição do ambiente que não visualiza com os olhos naturais.
Um ponto crucial no uso da rede neural artificial é o seu treinamento para que ela “aprenda” com a realidade que se propõe a descrever. O treinamento das redes neurais é longo, desafiador e demanda infra-estrutura de alto custo com placas de alta capacidade de processamento que custam cerca de 10 KUS$. Porém, depois de treinadas, o uso das redes neurais artificiais é simples e barato. No produto “Olho Eletrônico” disponibilizamos uma versão inicial para demonstrar a viabilidade do projeto.
O protótipo inicial é executado em smartphones com o sistema operacional Android que realiza a iteratividade com o usuário. As redes neurais que realizam o “coração” do processo ficam armazenadas em servidores cujo acesso é realizado por meio de Internet. Em termos de expectativas futuras, o projeto do “Olho Eletrônico” prevê três fases com entregáveis:
1) a primeira já concluída foi demonstrar a viabilidade tecnológica do projeto com a disponibilização do primeiro protótipo;
2) a segunda etapa inclui a disponibilização de um aplicativo público (o atual é restrito em razão da disponibilidade dos servidores utilizados atualmente) para smartphones que faz uso de internet banda larga para uso do serviço, ainda em 2017 e finalmente a etapa;
3) prevê o desenvolvimento de um óculos eletrônico com as redes neurais embarcadas onde não é necessário a disponibilidade de Internet banda larga (meta para 2019). Ao longo de todo esse período as redes neurais artificiais serão aprimoradas. Porém, o maior desafio está em fazer um hardware baseado em Arduíno que seja barato e capaz de processar de forma embarcada as redes neurais artificiais treinadas.
O projeto do “Olho Eletrônico” é um empreendimento do Grupo pioneiro em Deep Learning do Brasil, sediado na Universidade Federal de Goiás (UFG) [24]. Finalmente, entendemos que o “Olho Eletrônico” pode ser um excelente dispositivo de Inclusão Social das pessoas com deficiência visual além de proporcionar uma “satisfação visual virtual” para as mesmas!
Referências:
[1] O “Boom” da Inteligência Artificial está Chegando!, Convergência Digital, 08.dez.2016http://convergenciadigital.uol.com.br/cgi/cgilua.exe/sys/start.htm?UserActiveTemplate=site&infoid=44212&sid=15 [2] Robôs com IA escrevem matérias para grandes veículos de comunicação, Deep Learning Brasil, 14.jan.2017
http://deeplearning.inf.ufg.br/index.php/blog/126-robos-com-ia-escrevem-materias-para-grandes-veiculos-de-comunicacao [3] 10 Tech Trends That Made the World Better in 2016, Singulairy Hub, 05.jan.2017
https://singularityhub.com/2017/01/05/10-tech-trends-that-made-the-world-better-in-2016/ [3.1] Singularity University
https://su.org/ [4] Robots Will Take Jobs, but Not as Fast as Some Fear, New Report Says, The New York Times, 12.jan.2017
https://www.nytimes.com/2017/01/12/technology/robots-will-take-jobs-but-not-as-fast-as-some-fear-new-report-says.html?smid=tw-share&_r=1 [5] Harnessing automation for a future that Works, McKinsey Report, January 2017 [PDF included]http://www.mckinsey.com/global-themes/digital-disruption/harnessing-automation-for-a-future-that-works [6] Como a Inteligência Artificial pode Transformar a Medicina, Saúde Business, 13.jan.2017
http://saudebusiness.com/como-inteligencia-artificial-pode-transformar-medicina/ [7] Referências do Google sobre “Deep Learning Music Compostion”
https://www.google.com.br/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-8#q=deep+learning+music+composition [8] Referências do Google sobre “Deep Learning in Painting”
https://www.google.com.br/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-8#q=deep+learning+in+painting [9] Penny: Uma Rede Neural Deep Learning
http://www.inf.ufg.br/~anderson/deeplearning/penny/ [10] Self-driving cars could be a boon for Americans with disabilities, Auto Blog, 18.jan.2017
http://www.autoblog.com/2017/01/18/self-driving-cars-boon-americans-with-disabilities/ [11] AI Robot Companion Wants to Keep Old People Company, Newsweek, 11.jan.2017
http://www.newsweek.com/ai-ageing-companion-alexa-old-people-elliq-artificial-intelligence-541481 [12] Computer Vision, Wikipedia
https://en.wikipedia.org/wiki/Computer_vision [12.1] Deep Learning, Wikipedia
https://en.wikipedia.org/wiki/Deep_learning [13] Referências do Google sobre “Generation Image Caption Deep Learning”
https://www.google.com.br/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-8#q=generation+image+caption+deep+learning+ [14] 8 Inspirational Applications of Deep Learning, Machine Learning Mastery, 14.jul.2016
http://machinelearningmastery.com/inspirational-applications-deep-learning/ [15] Yann LeCun, Wikipedia
https://en.wikipedia.org/wiki/Yann_LeCun [16] Convolutional Neural Network, Wikipedia
https://en.wikipedia.org/wiki/Convolutional_neural_network [17] Olho Eletrônico
http://deeplearning.inf.ufg.br/index.php/deepvision [17.1] Vídeo: Olho eletrônico para deficientes visuais, You Tube, 20.jan.2017
https://www.youtube.com/watch?v=6v9BVPEjz1w [18] Recurrent Neural Network, Wikipedia
https://en.wikipedia.org/wiki/Recurrent_neural_network [19] Referências do Google sobre “Convolutional Neural Network Inception v3”
https://www.google.com.br/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-8#q=Convolutional+neural+network+inception+v3 [20] Thriller: A Origem (2010), Inception (original title)
http://www.imdb.com/title/tt1375666/ [21] Proceedings of ICCC 2016, 7th International Conference on Computacional Creativity, 27.jun – 01.jul of 2016
http://www.computationalcreativity.net/iccc2016/wp-content/uploads/2016/08/Proceedings_ICCC16.pdf [22] Recurrent Neural Network Long Short-term Memory, Wikipedia
https://en.wikipedia.org/wiki/Long_short-term_memory [23] Referências do Google sobre “Neural Network WaveNet”
https://www.google.com.br/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-8#q=Neural+Network+WaveNet [24] Deep Learning Brasil
http://www.deeplearningbrasil.com.br/ [*] Autores: [i] Anderson da Silva Soares (www.inf.ufg.br/~anderson), professor e pesquisador de Machine Learning na Universidade Federal de Goiás, fundador da comunidade Deep Learning Brasil (www.deeplearningbrasil.com.br), possui doutorado em Engenharia Eletrônica e Computação pelo Instituto Tecnológico de Aeronáutica (ITA) e M. Sc. em Engenharia Elétrica na área de Processamento de Sinais e Instrumentação pela Universidade de São Paulo (USP). [ii] Octávio Calaça Xavier, professor da Universidade Federal de Goiás e do Instituto Federal de Goiás, M. Sc. em Ciência da Computação pela UFG. [iii] Francisco Calaça, professor Adjunto da Faculdade de Tecnologia Senac Goiás, M.Sc. em Ciência da Computação pela UFG. [iv] Bruno Moraes, Mestre em Ciência da Computação pela Universidade de Uberlândia e aluno de doutorado na UFG. [v] Eduardo Prado é consultor de mercado em novos negócios, inovação e tendências em Mobilidade e “Big Data” em Saúde.
E-mail: [email protected]
Blog Saúde Business: http://saudebusiness.com/blogs/saude-3-0/
Blog Convergência Digital: http://www.convergenciadigital.com.br/eduardoprado/
Twitter: https://twitter.com/eprado_melo