Graças a IA, a voz será a nossa interface do futuro!
A tecnologia de voz tem evoluído de forma surpreendente nos últimos dois anos graças à evolução dos algoritmos do famoso “deep learning” da Inteligência Artificial (IA) [1-2]. Esta tecnologia tem motivado uma disputa particular “cabeça a cabeça” entre a IBM e a Microsoft para ver quem atinge a melhor marca em performance na tecnologia de voz. A Microsoft alcançou uma taxa de erro de 5,9% em outubro de 2016. A IBM baixou para 5,6% em março de 2017 [3]. E a Microsoft chegou a 5,1% em agosto de 2017 que se compara as “transcritores” humanos [4].
Apesar de termos evoluído muito nesse cenário da voz, existem alguns novos desafios a serem alcançados, tais como: alcançar níveis humanos em ambientes ruidosos com microfones distantes e reconhecer o sotaque da pessoa na fala, por exemplo [4]. Alheia à disputa da IBM e Microsoft, a Amazon se empenhou ao máximo no primeiro desafio (ambiente ruidoso com microfone distante) para viabilizar o seu produto de varejo Alexa (assistente pessoal inteligente) [5]. Para tal ela dispendeu um grande esforço em algoritmos de “machine learning”, aquisição de novos talentos de IA e alta tecnologia de IA para melhorar os índices de “reconhecimento de voz distante” [6] (ou como é conhecido “far field speech recognition” [7]) que envolve a interpretação de comandos de voz falados a alguma distância dos microfones, mesmo quando são poluídos com ruído ambiente ou outros detritos auditivos. O Alexa é a plataforma de voz que está embutida na linha de produtos de autofalantes inteligentes chamada Amazon Echo [8] que foi lançada em 2014.
Segundo uma das previsões para 2018 de Scott Galloway (@profgalloway) o “Alexa emergirá como o iPhone da próxima década e transformará a Amazon em uma empresa de 1,0 TU$” e a “Amazon passará a Apple em valor” … agora é sentar e esperar para ver! Previsões futuristas à parte, o Alexa é um caso realmente de grande sucesso e tem um potencial incrível para transformar os negócios em geral e pode estar abrindo um novo tempo para o que o mercado está chamado “A Revolução da Voz”!
Atualmente, com o Alexa a interface de voz não é mais uma promessa. A Amazon obteve o crédito para sua visão e implementação impecável da tecnologia. Impulsionada pelo que podemos chamar legitimamente do “Movimento Alexa”, a “voz” agora é percebida como o futuro da “interface do usuário” de sistemas computacionais e dispositivos. Mas nós precisamos de números: quantos de nós continuamos usando Alexa (ou Siri, ou assistente do Google) depois que a novidade nasceu? Para que usamos isso? Isso nos ajudará a entender o futuro real (e provável”) da interface de voz.
Os preços do Amazon Echo variam de um mínimo de US$ 40, para pouco menos de US$ 230 para a versão equipada com tela. Mas os preços contam uma parte menos importante da história. Jeff Bezos (CEO da Amazon) & companhia fizeram uma aposta precoce na tecnologia de IA, dotando o Alexa, o respondedor de voz inteligente da Echo na Cloud, com uma gama cada vez maior de serviços, ou seja, os módulos de resposta propostos aos usuários. Com o apoio entusiasmado de desenvolvedores parceiros [10], o Alexa contou mais de 15 mil serviços em julho de 2017 [11].
Para competir com o Alexa temos o Google Assistant [12] da Google na sua versão “mobile” e residencial que leva a vantagem em relação ao Alexa pois se conecta com os dispositivos móveis Android. Do lado da Apple temos o Apple HomePod [13] com a sua famosa tecnologia Siri.
A Amazon tem grandes ambições para o Alexa no segmento residencial. Ela quer que o Alexa seja o “cérebro da residência” e gerencie diversos serviços [14] e para tal está avaliando o desenvolvimento de chips dedicados para o equipamento para depender menos da infraestrutura de cloud [15].
Por causa do seu atual domínio da interface de voz e do comércio eletrônico – uma sinergia que ninguém viu ainda acontecer – a Amazon está em uma posição única para novos episódios de conquista no cenário da voz. Mas, para ganhar a corrida de base instalada contra o Google Assistant e o Siri, a Amazon precisa continuar instalando mais dispositivos compatíveis com o Echo ou o Alexa.
Enquanto a tecnologia de voz evolui nos dispositivos da Amazon, Apple e Android, ela também começa a ser utilizada em outros segmentos, a saber: (a) cada vez mais teremos o uso da tecnologia de voz nas cabines dos aviões. O produto Telligence da Garmin [16] é uma espécie de Siri da Apple para o “cockpit” da aeronave. A interface do futuro pode se assemelhar a mais a uma conversa do que um computador que foi programado. O sistema Telligence da Garmin usa comandos de voz para efetuar centenas de tarefas comuns no “cockpit” das aeronaves; (b) os consumidores estão cada vez mais utilizando a tecnologia de voz como parte central das suas interações móveis e residenciais. Como resultado, é hora de as organizações financeiras integrarem as tecnologias de voz em primeiro plano nas estratégias de aquisição, venda, atendimento e experiência dos seus clientes digitais [17-18]; (c) e na área de saúde a tecnologia de voz começa também a ser utilizada [19] e tem um grande caminho a percorrer nesse setor [20].
Não tenham dúvida: a interface do usuário do futuro [21-22] será a “voz” alavancada pela tecnologia de IA!
Referências:
[1] How voice technology is transforming computing, The Economist, 07.jan.2017http://www.economist.com/news/leaders/21713836-casting-magic-spell-it-lets-people-control-world-through-words-alone-how-voice [2] Language: Finding a voice, The Economist, 05.jan.2017
https://www.economist.com/technology-quarterly/2017-05-01/language#section-2 [3] IBM vs Microsoft: ‘Human parity’ speech recognition record changes hands again, ZD Net, 13.mar.2017
http://www.zdnet.com/article/ibm-vs-microsoft-human-parity-speech-recognition-record-changes-hands-again/ [4] Microsoft’s new record: Speech recognition AI now transcribes as well as a human, ZD Net, 22.aug.2017
http://www.zdnet.com/article/microsofts-new-record-speech-recognition-ai-now-transcribes-as-well-as-a-human/ [5] Alexa, Wikipedia
https://en.wikipedia.org/wiki/Amazon_Alexa [6] INSIDE AMAZON’S ARTIFICIAL INTELLIGENCE FLYWHEEL, Wired, 01.feb.2018
https://www.wired.com/story/amazon-artificial-intelligence-flywheel/ [7] Referências do Google sobre “far field speech recognition”
https://www.google.com.br/search?q=%E2%80%9Cfar+field+speech+recognition%E2%80%9D&oq=%E2%80%9Cfar+field+speech+recognition%E2%80%9D&aqs=chrome..69i57j0l3.1696j0j7&sourceid=chrome&ie=UTF-8 [8] Amazon Echo, Wikipedia
https://en.wikipedia.org/wiki/Amazon_Echo [9] Referências do Google de “Scott Galloway”
https://www.google.com.br/search?q=scott+galloway&oq=scott+galloway&aqs=chrome..69i57j69i61j0l4.5701j0j7&sourceid=chrome&ie=UTF-8 [10] Amazon Alexa Developer
https://developer.amazon.com/alexa [11] Amazon’s Alexa passes 15,000 voice skills, more than doubling since beginning of the year, Geek Wire, 04.jul.2017
https://www.geekwire.com/2017/amazons-alexa-passes-15000-voice-skills-doubling-since-beginning-year/ [12] Google Assistant, Wikipedia
https://en.wikipedia.org/wiki/Google_Assistant [13] Apple HomePod, Wikipedia
https://en.wikipedia.org/wiki/HomePod [14] Amazon wants Alexa to be your home’s brain, and this could be the next step, Fast Company, 12.feb.2018
https://www.fastcompany.com/40530060/amazon-wants-alexa-to-be-your-homes-brain-and-this-could-be-the-next-step [15] Amazon is reportedly following Apple and Google by designing custom AI chips for Alexa, The Verge, 12.feb.2018
https://www.theverge.com/2018/2/12/17004734/amazon-custom-alexa-echo-ai-chips-smart-speaker
[16] Referências do Google sobre “Telligence da Garmin Speech Recognition Cockpit Airplane”
https://www.google.com.br/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-8#q=Telligence+da+Garmin++Speech+Recognition+Cockpit+Airplane+
https://thefinancialbrand.com/70088/future-voice-marketing-engagement-usage-trends-banking/?smedia-twt-ambsu [18] Conversational Commerce: Why consumers are embracing voice assistants in their lives, Capgemini, 11.jan.2018
https://lnkd.in/ddZdk_z [19] What Will Health Care Look Like Once Smart Speakers Are Everywhere?, Harvard Business Review, 07.mar.2018
https://hbr.org/2018/03/what-will-health-care-look-like-once-smart-speakers-are-everywhere [20] Referências do Google sobre “the future of voice technology interface in Healthcare”
https://www.google.com.br/search?q=the+future+of+voice+technology+interface+in+healthcare&oq=the+future+of+voice+technology+interface+in+healthcare+&aqs=chrome..69i57.21822j1j7&sourceid=chrome&ie=UTF-8 [21] Opinion: The future of voice user interfaces, BBC News, 03.nov.2017
https://medium.com/bbc-news-labs/the-future-of-vui-36c5105f0846 [22] Expect to talk to your devices a lot more in the future, Recode, 10.jan.2018
https://www.recode.net/2018/1/10/16874902/alexa-assistant-voice-activated-amazon-google-interface-bixby-ces-2018
* Eduardo Prado é consultor de inovação e desenvolvimento de novos negócios na área de Inteligência Artificial (IA) em Saúde e Indústria.
Conheça aqui meu Twitter sobre IA, Saúde, Medicina, Genômica, Biotech e outras techs:
https://twitter.com/eprado_melo
Outras matérias de Eduardo Prado:
1. Blog Saúde 3.0 – http://saudebusiness.com/blogs/saude-3-0/
2. Convergência Digital – http://www.convergenciadigital.com.br/eduardoprado/