Junho 2019

Novo mercado estratégico: chegámos à Suécia!

2019-06-24

2 min

A Xpand IT é uma empresa portuguesa, com capital português, e a dimensão nacional que já atingiu é, de facto, extraordinária. Terminou o ano de 2018 com um crescimento de 45% e uma faturação a rondar os 15 milhões de euros, o que levou à distinção alcançada no ano de 2019 no Ranking do Financial Times (FT1000: Europe’s Fastest Growing Companies). A Xpand IT foi uma das três tecnológicas portuguesas a estar presente neste importante Ranking.

No entanto, na Xpand IT queremos crescer sempre mais. Queremos partilhar o nosso expertise pelos quatro cantos do mundo e levar um pouco da nossa cultura a todos os nossos clientes. E a verdade é que a participação internacional da Xpand IT tem também crescido substancialmente, tendo fechado o ano anterior com um total de 46,5% das suas receitas provenientes de clientes internacionais.

Este crescimento tem sido sustentado por dois fortes eixos de atuação: a exploração de mercados estratégicos, como por exemplo, Alemanha e Reino Unido (onde já temos uma subsidiária e escritório) mas também pela forte alavancagem a nível de produto que se tem registado. O Xray e o Xporter, ambos bastante associados ao ecossistema Atlassian, são utilizados por mais de 5000 clientes, em mais de 90 países! Para este ano estão previstos lançamentos de novos produtos, em áreas como Inteligência Artificial (Digital Xperience) ou Business Intelligence.

Este ano, a estratégia de internacionalização da Xpand IT passa por apostar em novos mercados estratégicos na Europa: os países nórdicos. A Suécia será o primeiro país a estar sob foco, mas o objetivo é alargar as iniciativas aos restantes: Noruega, Dinamarca e Finlândia.

Esta aposta prende-se com o facto de já existirem diversas iniciativas comerciais neste mercado, e pelo incentivo de alguns dos nossos parceiros, como a Microsoft, Hitachi Vantara ou Cloudera, que já se encontram bem estabelecidos em países como a Suécia. Para além disso, o facto de as barreiras culturais e diferença horária não serem significativas, faz com que esta seja uma das nossas apostas para o ano de 2019.

Para Paulo Lopes, CEO & Senior Partner da Xpand IT: “Temos um enorme orgulho no crescimento que a empresa tem alcançado nos últimos anos e a nossa expectativa é que este sucesso se continue a verificar. O processo de internacionalização da Xpand IT já conta com alguns anos, sendo estamos a entrar numa 2ª fase, onde iremos apostar mais fortemente novos mercados onde sabemos que a nossa expertise tecnológica, aliada a uma equipa e cultura únicas, podem realmente fazer a diferença. Acreditamos que a Suécia é a aposta certa para a entrada no mercado dos países nórdicos. Em breve iremos dar mais novidades sobre esta aposta!…”

Zwoox – Simplifica a ingestão de dados

by Ana Lamelas

2019-06-19

< 1

O Zwoox é uma ferramenta de ingestão de dados, desenvolvida pela Xpand IT, e que facilita a importação e estruturação de dados para um cluster Hadoop.

Esta é uma ferramenta altamente escalável dado que se encontra totalmente integrada no Cloudera Enterprise Data Hub e tira total proveito de várias tecnologias Hadoop, como Spark, Hbase e Kafka. Com o Zwoox a necessidade de codificar data pipelines “à mão” é eliminada, qualquer que seja a fonte de dados.

Uma das maiores vantagens do Zwoox é o facto de acelerar a ingestão de dados, oferecendo inúmeras opções no que à importação de dados diz respeito permitindo inclusive replicar RDBMS DML em near real-time para estruturas de dados Hadoop.

Apesar de existirem várias ferramentas que permitem a importação de dados para clusters Hadoop, só com o Zwoox é possível efetuar esta importação de forma acessível, eficiente e altamente escalável, persistindo os dados em HDFS (com tabelas Hive) ou Kudu.

Algumas das possibilidades que o Zwoox oferece:

Automação de particionamento em HDFS;
Tradução de data types;
Carregamento total ou por deltas;
Tabelas de audit (com full history) sem impactos na performance;
Derivação de novas colunas de funções pré-definidas ou código “pluggable”;
Integração operacional com o Cloudera Manager.

Esta ferramenta encontra-se disponível no Cloudera Solutions Center e estará brevemente no site da Xpand IT. Por enquanto, pode também consultar o documento informativo sobre o produto.

Se precisa de saber mais sobre o Zwoox ou sobre ingestão de dados, contacte-nos.

Tecnologia biométrica de reconhecimento

by Ana Lamelas

2019-06-18

3 min

Hoje, mais do que nunca, é fundamental que os utilizadores se sintam seguros ao utilizar um serviço, uma aplicação móvel ou a efetuar a inscrição num website. A prioridade para estes utilizadores é saber que os seus dados estarão, de facto, protegidos. Desta forma, a tecnologia biométrica de reconhecimento desempenha um papel fundamental, já que é uma das formas mais seguras e eficazes de autenticar o acesso dos utilizadores aos seus dispositivos móveis, às suas contas pessoais de e-mail ou mesmo às suas contas bancárias online.

A biometria tem-se tornado, então, uma das formas mais rápidas, seguras e eficazes de oferecer proteção aos indivíduos, não só por ser um dos requisitos de autenticação de cada pessoa enquanto cidadão de um país – ou não fosse a impressão digital um dos dados recolhidos e armazenados para efeitos de documentação legal – como por ser a maneira mais casual (e fiável) de proteger os nossos telemóveis. As vantagens de utilização de tecnologia biométrica de reconhecimento são, então, a eficácia, a precisão, a conveniência e a escalabilidade.

Nas TI, a biometria encontra-se maioritariamente ligada à verificação da identidade de alguém, através das suas características físicas ou comportamentais – impressão digital, reconhecimento facial, reconhecimento de voz ou mesmo a identificação da retina/ íris. Refere-se, então, a tecnologias que medem e analisam as características do corpo humano como forma de permitir ou negar acessos.

Mas como funciona esta identificação no backend? É utilizado um software que identifica pontos específicos dos dados apresentados, que são como pontos de partida. Estes pontos de partida são processados e transportados até uma base de dados que, por sua vez, utiliza um algoritmo que converte as informações num valor numérico. É este valor que irá ser comparado com a entrada biométrica registada do utilizador que o scanner detetou, e a sua autenticação é aprovada ou negada, consoante exista correspondência ou não.

O processo de identificação pode ser efetuado de duas formas: comparação de um-valor-para- muitos ou de um-valor-para-um. O processo de identificação de um-valor-para-muitos acontece quando uma amostra de um utilizador é submetida num sistema e comparada com amostras de outros indivíduos; já o processo de autenticação de um-valor-para-um funciona com apenas um utilizador, comparando os dados fornecidos com os dados anteriormente submetidos – como acontece nos nossos dispositivos móveis.

Existem inúmeros tipos de leitura biométrica, sendo que estes são os mais comuns:

Impressão digital (uma das tecnologias biométricas de identificação mais utilizadas e mais económicas, já que apresenta um grau de precisão bastante considerável. Na verificação de uma impressão são analisados vários pontos do dedo, como terminações e arcos únicos). Exemplos: aplicações Médis, MBWay ou Revolut;
Reconhecimento facial (através de uma imagem facial do utilizador, constituída por vários pontos de identificação da face, é possível definir distâncias entre olhos e nariz, por exemplo, a estrutura óssea e os contornos de cada componente do rosto. Esta forma de leitura pode apresentar falhas consoante o utilizador tenha óculos de sol ou barba). Exemplo: Face ID da Apple;
Reconhecimento de voz (a identificação é feita através de uma análise aos padrões de voz de cada indivíduo, juntando uma combinação entre fatores físicos e comportamentais. No entanto, não é das formas de reconhecimento mais fiáveis). Exemplos: Siri, da Apple, ou Alexa, da Amazon;
Identificação pela íris/ pela retina (menos utilizada, a identificação pela íris/ retina acontece com o armazenamento dos contornos e padrões geométricos existentes – no caso da íris – e com a identificação de um indivíduo através de vasos sanguíneos no fundo dos olhos – no caso da retina. A garantia de fiabilidade é muito elevada, mas o custo é muito alto, o que faz com que não seja utilizada de forma massiva). Leia este artigo sobre identificação de identidade no setor da banca;
Estilo de escrita (biometria comportamental baseada no tipo de escrita) (por fim, outra forma de autenticar um utilizador, é através da sua escrita – por exemplo, uma assinatura – já que a pressão no papel, a velocidade de escrita ou os movimentos exercidos no ar são muito difíceis de imitar. Esta é uma forma de autenticação mais antiga, utilizada fundamentalmente pela banca). Veja o artigo sobre a Read API, Microsoft Azure.

Novo ciclo: a primeira edição do evento DnA 2019

by Rúben Vanravan

2019-06-18

2 min

O mês de maio ficou marcado na Xpand IT como o início de um novo ciclo: a primeira edição do evento DnA (Data ‘n’ Analytics 2019). Sob o mote “Building a Smarter Future”, esta nova abordagem quis mostrar como as diferentes áreas tecnológicas e de expertise, como Big Data, Data Science, Digital Xperience ou Business Intelligence, conseguem trabalhar de forma integrada, gerando efetivas mais-valias para as empresas.

A keynote da manhã focou-se, essencialmente, em transmitir uma visão coesa entre as diferentes áreas, demonstrando aos mais de 200 participantes que vivemos num mundo em que tudo à nossa volta gera dados e que essa é, de facto, uma oportunidade de ouro para conhecer melhor os seus clientes, propondo-lhes soluções mais adequadas para os desafios que enfrentam.

No entanto, essa oportunidade só existe se a soubermos criar, se soubermos potenciá-la, e Sérgio Viana, Digital Xperience Lead, mostrou à plateia de que forma o nosso expertise tem ajudado dezenas de empresas a cultivar essas mesmas oportunidades, apostando em construir uma cultura digital. Mas os dados gerados, se não foram extraídos e analisados de forma adequada, não passam disso mesmo: dados. Apenas com análises aprofundadas, com o software correto, e de acordo com as necessidades de cada decisor de negócio, é possível extrair todas as informações necessárias para que as decisões possam ser cada vez melhores e mais sustentadas. Todo este processo foi assegurado por Ricardo Pires, Business Intelligence Lead, que demonstrou como efetuá-lo de forma simples, mas eficaz. Por último, mas não menos importante, para que as análises possam ser efetuadas no momento certo, e a sustentar todos os processos de dados, são necessárias estruturas de Big Data que assegurem o volume desses dados, uma velocidade adequada (near real-time) e a escalabilidade conforme a necessidade de cada empresa – este foi o contributo de Nuno Barreto, Big Data Lead, que referiu ainda a nova geração de soluções de Big e Fast Data.

Da parte da tarde, as apresentações tornaram-se mais técnicas e com um cariz mais prático, sendo asseguradas por convidados tais como: Christian Violi e Filippo Lambiente, da Cloudera; Alexandre Baptista, da Microsoft; Daniel Olaso, da Hitachi Vantara; Rute Ferreira, da Tableau; Pedro Adão, da EDP Comercial; João Mira, do Santander e, ainda, por dois Xpanders, Boris Tchikoulaev e Luís Vicente. Numa sala à parte, decorreu, ainda, um workshop sobre como criar uma plataforma de dados.

No final das apresentações – e porque o dia a isso convidava – a Xpand IT ofereceu aos participantes um momento de networking final, no qual incluiu um beer-call. No próximo ano a Xpand IT promete trazer o DnA novamente, sempre focado em encontrar soluções para os desafios que as empresas modernas enfrentam, e sempre com os olhos postos no futuro. Mas o nosso futuro começa agora.

Aqui ficam algumas fotografias do grande evento do ano sobre Big Data & Analytics:

Open Day da Xpand IT 2019: três razões para te inscreveres em 2020

by Sara Godinho

2019-06-17

3 min

No dia 6 de junho abrimos as portas dos nossos escritórios em Lisboa para receber 12 estudantes finalistas de engenharia informática que aceitaram o desafio de conhecer a nossa cultura e metodologias de trabalho durante a 4ª edição do Open Day da Xpand IT 2019.

Um dia de networking, desafios tech e partilha de know-how entre os Xpanders e os jovens talentos que provaram ter uma paixão enorme pela tecnologia. A próxima edição é em 2020 e contamos-te agora a journey dos participantes que estiveram connosco.

Três razões para te inscreveres no Open Day em 2020:

Vais poder ter contacto hands-on com tecnologias inovadoras e disruptivas que utilizamos com o mentoring dos nossos experts. Durante o Open Day da Xpand IT 2019, os estudantes partilharam boas práticas, good tips e know-how relevante para o dia-a-dia de um projeto tecnológico.
Vais ser desafiado para Tech challenges, simulando casos reais. Os alunos finalistas tiveram um primeiro contacto com a tecnologia Salesforce e resolveram business cases com Tableau, uma ferramenta de business intelligence.
Os participantes viveram a experiência de serem Xpanders por um dia, desfrutando de momentos de trabalho mas também de descontração.

Tech Challenge Salesforce: como trabalhar e desenvolver?

O desafio foi dividido em duas partes:

Na primeira parte, os estudantes foram introduzidos à ferramenta de CRM.
Na segunda parte, aplicaram um caso prático, aprendendo a manipular o modelo de dados e a criar automações para simular no Salesforce uma plataforma de vendas. Desta forma, puderam ter uma visão 360º sobre o perfil dos clientes (informações, produtos, transações).

Conclusões

A maioria experimentou pela primeira vez esta ferramenta de CRM, tendo, assim, tido a oportunidade de conhecer melhor os desafios ligados ao desenvolvimento nesta área.

Tech Challenge Tableau: como resolver business cases?

O desafio foi dividido em duas partes:

Inicialmente foi feita uma apresentação da ferramenta de Business Intelligence – Tableau bem como do universo de dados a utilizar no desafio. Os estudantes tiveram oportunidade de ver as potencialidades da ferramenta e de algumas das funcionalidades mais relevantes.
Seguidamente foi apresentado o desafio com um conjunto de questões de negócio da empresa fictícia que teriam de ser respondidas criando visualizações de Tableau. No final foi pedia a criação de um dashboard com as especificações descritas.

Conclusões

Com este desafio os estudantes puderam experimentar uma ferramenta de Business Intelligence e responder a um conjunto de questões semelhantes às que existem num projeto real.

O Talento compensa

Os jovens provaram o seu talento com muita energia, dedicação e empenho, tendo sido atribuído aos cinco vencedores dos dois desafios um prémio especial: uma Alexa. Acreditamos que a excelência deve ser sempre reconhecida.

Ser Xpander por um dia

Para além do know-how técnico que puderam aprofundar, os participantes viveram a nossa cultura:

Partilhámos momentos descontraídos, games, um almoço (pizza time!) mas o fundamental foi o networking com as equipas e com os diferentes roles que enfrentaram, em que foi possível partilhar novas ideias. Esta é a abordagem de proximidade que nos caracteriza na nossa forma de estar no dia-a-dia.

Expertise goes both ways

Queremos estar ao lado das melhores expectativas, metodologias e dos desafios tecnológicos de futuro. Por isso, experiências como o Open Day da Xpand IT 2019 são uma oportunidade incrível para estarmos em contacto com diferentes realidades universitárias e backgrounds, ouvindo e integrando novos insights.

Não percas as próximas edições. A paixão pela tecnologia é aquilo que nos une!

O que dizem os estudantes?

Utilizar o Salesforce com Pentaho Data Integration

by Fátima Miranda

2019-06-17

5 min

Pentaho Data Integration é a ferramenta mais indicada para mover dados entre diferentes sistemas, e não significa que seja necessariamente um processo de business intelligence. Pode ser utilizada como uma ferramenta ágil para integração ponto-a-ponto entre sistemas. O Pentaho Data Integration possui o seu próprio input step Salesforce, o que faz desta ferramenta uma opção fantástica em processos de integração.

O que é o Salesforce?

O Salesforce é uma solução em cloud para gestão de relacionamento com o cliente (CRM). Sendo uma Plataforma como Serviço (PaaS – Application as a Service) multi-tenant de última geração, a sua infraestrutura única permite-lhe focar todos os seus esforços nas áreas mais essenciais: criar micro-serviços com potencial de alavancagem em aplicações inovadoras e acelerar verdadeiramente o processo de desenvolvimento CRM.

O Salesforce é a plataforma ideal para lhe providenciar uma visão de 360º do seu cliente e das suas interações com a sua marca, independentemente de acontecerem via campanhas por e-mail, call centers, redes sociais ou uma simples chamada telefónica. A automação de marketing, por exemplo, é apenas uma das inúmeras vantagens que o Salesforce lhe oferece numa plataforma polivalente.

Como estabelecemos ligação entre o Pentaho Data Integration e Salesforce?

Para garantir o acesso, necessitamos de todos os detalhes de conexão do Salesforce: nome de utilizador, palavra-passe e o URL do serviço web SOAP. É imperativo que o PDI seja compatível com a versão da API SOAP que utiliza. Por exemplo:

Versão do PDI	Versão da API SOAP
2.0	1.0
3.8	20.0
4.2	21.0
6.0	24.0
7.0	37.0
8.2	40.0

De qualquer forma, mesmo que o Salesforce nos providencie uma nova versão da API, ainda é possível utilizar a API anterior na perfeição. No entanto, tenha cuidado, porque caso tenha criado novos módulos na plataforma, a nova API não incluirá esses elementos personalizados e, consequentemente, terá que utilizar a linguagem Salesforce Object Query Language (SOQL) para obter os dados. Não se preocupe, pois explicaremos tudo na próxima secção.

Especificações SOQL

A sintaxe SOQL é bastante similar à sintaxe SQL, com algumas diferenças:

O SOQL não reconhece quaisquer carateres especiais (tais como * ou ; ) e, portanto, é necessário utilizar todos os campos obtidos a partir do Salesforce, e não é possível adicionar o ; no EOF.
Não é possível utilizar comentários em queries; o SOQL não os reconhece.
Para criar joins necessitamos de saber algumas regras:
- Em módulos nativos para os quais necessitamos de associações (relação direta), é necessário adicionar um ‘s’ ao nome final. Por exemplo:

Get all Orders with and without has Products (OrderItem Module)

- Em módulos de personalização para os quais necessitamos de obter dados de outro módulo (relação direta) necessitamos de adicionar ‘__r’ ao nome final. Por exemplo:

Filter OrderItems by Product_Skins__c field inside Product 2 Module

Como extraímos dados do Salesforce com o Pentaho Data Integration?

Podemos utilizar o input step Salesforce integrado no PDI para obter dados do Salesforce via SOQL; note que o limite máximo de carateres na criação de um query é de 20,000.

Parâmetros de conexão especificados:
- Salesforce web service URL:

<url of Salesforce Platform>/services/Soap/u/<number of API Soap updated>

Nome de Utilizador: Nome de Utilizador de Acesso à Plataforma (ex.: myname@pentaho.com)
Palavra-passe:Palavra-passe + Token (a empresa providencia o token para adicionarmos à palavra-passe em Kettle.Properties) ex.: PASSWORDTOKEN
Definições especificadas:
- Especificar o query: Sem ativo (como é possível verificar na imagem abaixo) necessitamos apenas de selecionar o módulo (a tabela que contem os registos aos quais pretendemos aceder).

Para o próximo separador (Content / Conteúdo) existem as seguintes opções:

Caso seja pretendido obter todos os registos do Salesforce (por outras palavras, obter registos “delete” e “insert” – “eliminados” e “inseridos”) é necessário assinalar a opção “Query All Records” e selecionar dos parâmetros abaixo uma das seguintes opções:
- All (obter registos “new” (novos) e registos “delete” (eliminados)), Update (obter apenas “inserts” (inseridos) e registos “update” (atualizados));
- Caso desmarque a opção “Query All Records” nos parâmetros, obteremos apenas registos “insert”/”update” – “inseridos”/”eliminados”;
- Delete (obtemos apenas registos “delete” – “eliminados”).

De que forma o Pentaho Data Integration reconhece registos “novos” / “atualizados” ou “eliminados”?

O Salesforce possui campos nativos bastante úteis para controlar o processo. No entanto, não é possível observar esses campos no layout ou no esquema de construção em SF. Apenas os dados associados se encontram visíveis com estes campos específicos ao utilizar o SOQL ou PDI para aceder aos mesmos.

CreatedById e CreateDate são campos que exibem o utilizador, assim como a hora em que os registos foram criados.
LastModifiedDate e LastModifiedID mostra a hora e o utilizador que modificou o registo. Podemos utilizar estes campos para obter dados atualizados em SF.
Id (Salesforce Id), presente no URL como uma string de 18 carateres, (Java config.) exibe o registo.
Por exemplo:
Temos um campo adicional, IsDeleted, com o tipo de dados = Boolean que informa se o registo foi removido (IsDelete = true) ou não (IsDelete = false).

No campo “Additional” / “Adicional”, temos três opções adicionais:

Time out é útil em sistemas assíncronos, uma vez que possibilita a configuração do intervalo “timeout” em milissegundos antes da expiração do step;
Use Compression é útil para obter mais performance do processo. Quando selecionada, esta opção fará com que o sistema redirecione todas as chamadas para a API e as envie em formato .qzip;
Limit serve para configurar o número máximo de registos a recolher do query.

No último separador é possível visualizar todos os campos do query no interior do primeiro separador. Sem o SOQL, obtemos todos os campos dos módulos. Com SOQL, obtemos todos os campos pertencentes à função SELECT.

Necessitamos de mais cuidado com a opção “Get Field Button”, uma vez que o Type (Tipo), Format (Formato) e Size (Tamanho) não podem ser corrigidos. Nestes casos, é necessário recorrer a alterações manuais.
Para obter mais detalhes:

O base64 exibe imagens ou PDFs presentes em SF.

Caso seja necessário enviar imagens (.jpeg) ou PDF (.pdf) diretamente para SF, carregamos este tipo de campos via JAVA, convertendo ficheiros binários para o base64.

Por exemplo, para enviar um ficheiro PDF para SF:

Como carregar dados para Salesforce via Pentaho Data Integration?

Envie dados para o Salesforce através de outras bases de dados ou a partir do Salesforce.

A opção de conexão é igual à descrita previamente no input Salesforce.
Nas opções das Definições (Settings), temos os seguintes parâmetros:

Rollback all Changes on error – caso nos deparemos com algum erro, nada será integrado em SF;
Batch Size – é possível trazer um número estático de registos e integrá-los simultaneamente (no mesmo batch) em SF;
Em Output Fields Label é necessário adicionar o nome do campo do qual pretendemos obter o Salesforce ID para cada registo integrado.

No parâmetro Fields Option, necessitamos de colocar o mapeamento dos campos.

Para Module Field, necessitamos de colocar o campo API Name em SF para obter novos dados;
Em Steam Field, é necessário colocar o nome do campo que será integrado no respetivo campo em SF;
Use External id = N para todos os campos atualizados no respetivo Módulo;
Use External id = Y para todos os registos que necessitamos atualizar, mas que não se encontram presentes noutro módulo.

Eliminar registos no Salesforce

Eliminamos registos do Salesforce com o step Delete Salesforce. É necessário especificar o campo chave do Table Input que faz a referência para a chave em Salesforce (Salesforce ID).

Atualizar registos Salesforce

Caso pretendamos apenas atualizar registos em SF, é necessário utilizar o Salesforce Update Step.
Incluído na seccção Fields (Key included) Option, necessitamos de adicionar a chave aos registos para o módulo específico.

Upsert de dados no Salesforce

Se desejarmos inserir e atualizar (“insert” e “update”) no mesmo Batch em SF, necessitamos de utilizar a funcionalidade Salesforce Upsert.
O parâmetro Upsert Comparison Field ajuda a comparar os dados em SF.

Estivemos na JNation. Next Stop: Landing Festival

by Sara Godinho

2019-06-12

2 min

Vem connosco aos maiores eventos de Tecnologia.

Na Xpand IT acreditamos que a expertise tecnológica não se “desenvolve” sozinha e deve ser partilhada e vivida com os melhores profissionais, que todos os dias contribuem para melhorar o mundo através da tecnologia. Esse é um dos nossos propósitos quando fazemos o nosso caminho: ir onde o talento está e trabalhar com as tecnologias que fazem a diferença.

Enquanto especialistas em Java e JavaScript, não podíamos faltar à JNation, a maior conferência em Portugal nas duas linguagens mais populares do mundo. Fomos sponsors do evento que reuniu developers, gigantes tecnológicas e oradores internacionais, no dia 4 de junho, em Coimbra, no Convento de São Francisco.

Ao longo do dia, as nossas equipas estiveram presentes e puderam partilhar e aprofundar os casos de sucesso que nos têm distinguido no mercado. É razão para dizermos que tivemos casa cheia no nosso stand, repleto de momentos de alegria e networking. Para além da expertise, levámos connosco a boa disposição e vestidos a rigor desenvolvemos várias ativações que se revelaram uma surpresa:

Sorteio de Alexa com Simulador de mota

Há jogos que são para sempre e tecnologias também. Há desafios a que não conseguimos ficar indiferentes. O nosso simulador de motas criou um ambiente de verdadeira adrenalina. Os participantes aceleraram a fundo e no final do dia sorteámos uma Alexa:

Find the bug

Levámos muito a sério a gamification. O nosso stand inclui um code challenge à altura dos mais atentos. Os participantes que encontraram os bugs de código ganharam senhas que puderam trocar por prémios da JNation.

A conferência foi um sucesso e uma excelente oportunidade de networking em que partilhámos com os developers as diferentes áreas e projectos em que desenvolvemos com Java, Spring, JavaScript, angular, react.js, typescript, neo4j, node.js, entre outros.

Tive a oportunidade de ir à JNation com a Xpand IT e foi enriquecedor porque aprendi bastante com as talks sobre Kubernetes e Kotlin.

Pedro Marques, Enterprise Solutions expert da Xpand IT

Aproveitei ao máximo as diversas talks durante o dia, especialmente as de Kubernetes e JavaScript. O evento estava muito bem organizado

Paulo Alves, Collaboration and Development Solutions expert da Xpand IT

Próxima paragem no Landing Festival: Participa no Workshop Azure!

A próxima paragem é já no dia 28 e 29 de junho, na Landing Festival, em Lisboa, o maior evento dedicado ao desenvolvimento de skills profissionais techy. Na Landing Festival tens a oportunidade de participar em workshops, receber mentoring e insights relevantes na definição do teu percurso profissional.

Queremos conhecer-te. A ti e a todas as tuas perguntas. Vem descobrir o que fazemos e falar connosco. Podes também inscrever-te no workshop de Azure promovido pelo Sérgio Silva, expert em Digital Xperience da Xpand IT.

Inscrever-me na Landing Festival

Meetup Data Science Hands-on do Lisbon Kaggle: hot topics da sessão

by Joana Pinto

2019-06-06

3 min

Data Science Hands-on: “Predicting movies’ worldwide revenue”

No passado dia 4 de Maio, dia mundialmente conhecido como o dia do Star Wars (“May the fourth“), cerca de 40 aficionados de Data Science aproveitaram a ocasião para em mais uma sessão do Lisbon Kaggle Meetup aprenderem sobre este tema a praticar e partilhar. O Meetup “Data Science Hands-on” decorreu no Instituto Superior Técnico (IST) e foi dedicado precisamente ao cinema:

o problema abordado consistiu em prever a receita dos filmes antes da sua estreia!

Para este evento contou-se ainda com o patrocínio da Xpand IT e com a colaboração da Hackerschool Lisboa, um grupo de alunos do IST interessados em tecnologia e que também evangeliza a prática do learn-by-doing.

Em primeiro lugar, o evento teve início com uma apresentação do Ricardo Pires da Xpand IT, que introduziu a empresa e as suas unidades focadas no tratamento e exploração de dados. Deu, assim, uma amostra aos participantes de como estes problemas se enquadram num contexto real. Logo de seguida, o professor Rui Henriques, que leciona a disciplina de Data Science no IST, explicou aos participantes a sua perspetiva de como abordar um problema de Data Science, dando algumas dicas sobre o desafio do meetup.

Os dados deste desafio potenciam a aprendizagem e dão uma ideia do que poderá ser um problema real uma vez que são semi-estruturados e exigem um esforço grande no tratamento dos mesmos.

Estima-se que cerca de 80% do trabalho diário de um Data Scientist seja em tarefas de tratamento de dados.

(Fonte: Forbes)

Assim, após as duas apresentações, os participantes começaram a desvendar os mistérios escondidos nos dados. Verificaram, por exemplo, o aumento das receitas ao longo dos anos de uma forma geral. Notaram ainda que os filmes americanos têm uma receita superior aos restantes.

Abordagem ao desafio

Na primeira parte, os participantes modelaram o problema com colunas mais simples e estruturadas como:

budget
popularity
runtime
data

Desta forma, tentaram obter as suas primeiras previsões para as receitas dos filmes. Na figura abaixo, que representa a matriz de correlação de Spearman, verifica-se que o budget e a popularity são as colunas mais correlacionadas com a receita.

Na segunda parte, atacaram-se as colunas semi-estruturadas, aplicando a técnica de one-hot encoding, como:

realizador
o elenco do filme

Com esta exploração mais aprofundada dos dados, as equipas descobriram os filmes que mais receitas geraram (ver tabela abaixo).

Outro aspeto relevante é percebermos que a popularidade nem sempre está diretamente relacionada com a receita, como é o caso do filme “Transformers: Dark of the Moon”, uma vez que se apresenta pouco popular mas com uma receita alta.

Outro facto interessante é observar os atores que em média geraram as receitas mais altas:

Conclusões

No final do meetup, os participantes deram a conhecer as soluções implementadas:

O grupo com um dos melhores resultados aplicou Logistic Regression. Apesar de ser um modelo simples, pode dar bons resultados quando há foco no tratamento dos dados.
O tratamento dos dados passou por técnicas como a deteção de outliers, nos filmes com um budget muito discrepante, substituindo estes valores pela mediana.
As colunas de budget e revenue foram transformadas para o logaritmo das mesmas, de modo a aproximá-las de uma distribuição Gaussiana.
Umas das vantagens de usar um modelo mais simples é que estes são, também, mais fáceis de explicar a um stakeholder de negócio.

O dia 4 de maio foi passado a aprender e aberto a todos os níveis. Se tens interesse em Data Science junta-te à comunidade e aparece nos eventos que ocorrem habitualmente uma vez por mês.

Mais informações sobre o meetup “Data Science Hands-on”.

Joana Pinto

Data Science expert, Xpand IT

Alexandre Gomes

Data Science expert, Xpand IT

Ver meetups da XTech community

Cookie	Duração	Descrição
_GRECAPTCHA	5 meses 27 dias	Este cookie é configuirado pelo Google reCAPTCHA protege o nosso site contra ataques de spam nos formulários de contacto.
_icl_visitor_lang_js	1 dia	Este cookie é configurado pelo WPML WordPress plugin guarda o idioma redirecionado.
cookielawinfo-checkbox-[CATEGORIA]	11 months	Este cookie é usado pelo GDPR Cookie Consent plugin guarda o consentimento do visitante da [CATEGORIA].
CookieLawInfoConsent	1 ano	CookieYes define este cookie para registar o estado predefinido do botao correspondente a categoria e o estado do CCPA. Funciona apenas em coordenacao com o cookie principal.
PHPSESSID	sessão	Usado em aplicações PHP nativas, este cookie é usado para armazenar e identificar o ID de sessão exclusivo de um utilizador com a finalidade de gerir a sessão do mesmo no site. É um cookie de sessão e é excluído quando todas as janelas do navegador são fechadas.
viewed_cookie_policy	11 meses	Este cookie usado pelo GDPR Cookie Consent plugin para guardar se o visitante consentiu ou não o use the cookies. Não guarda nenhum dado pessoal.
wpml_browser_redirect_test	sessão	Este cookie é usado pelo WPML WordPress plugin é usado para testar se os cookies estão ativos no browser.

Cookie	Duração	Descrição
__cf_bm	30 minutos	Este cookie é configurado pela CloudFlare para dar suporte ao Cloudflare Bot Management
_os_session	14 days	This cookie does not contain any user-specific information.
abgroups	1 mês	Ativa o grupo A ou B para o teste A/B de funcionalidades.
bscookie	2 anos	Este cookie é usado pelo LinkedIn guarda se o utlizador fez login com multi-factor
CONSENT	2 anos	Este cookie é usado pelo YouTube em videos embebidos e regista dados estatísticos anonimamente.
cxssh_status	3 meses 8 dias	Este cookie determina se o navegador aceita cookies.
lang	sessão	Este cookie é usado pelo LinkedIn para guardar a escolha do idioma do visitante no website linkedin.com.
language	session	Este cookie é usado para guardar a escolha no nosso website.
li_gc	2 anos	Utilizado pelo LinkedIn para armazenar o consentimento dos visitantes em relação ao uso de cookies para fins não essenciais.
lidc	1 dia	Este cookie é usado pelo LinkedIn para facilitar a escolha do datacenter.
ln_or	1 dia	Cookie usada pelo LinkedIn.
VISITOR_INFO1_LIVE	5 meses 27 dias	Este cookie usado pelo YouTube para medir a largura de banda de modo a determinar se o visitante acede à nova ou à antiga interface.
yt-remote-connected-devices	nunca	Este cookie é usado pelo YouTube para guardar as preferências de video do visitante nos videos embebidos.
yt-remote-device-id	nunca	Este cookie é usado pelo YouTube para guardar as preferências de video do visitante nos videos embebidos.

Cookie	Duração	Descrição
__adroll	1 ano 1 mes	Este cookie e definido pela AdRoll para identificar utilizadores em visitas e dispositivos diferentes. e utilizado em leiloes em tempo real para que os anunciantes possam exibir anuncios relevantes.
__adroll_fpc	1 ano	A AdRoll define este cookie para segmentar utilizadores com base no comportamento de navegacao.
__adroll_shared	1 ano 1 mes	A AdRoll define este cookie para recolher informacoes sobre utilizadores em diferentes websites para publicidade relevante.
__ar_v4	1 ano	Este cookie e definido sob o dominio DoubleClick para colocar anuncios que direcionam para o website nos resultados de pesquisa do Google e para monitorizar as taxas de conversao desses anuncios.
_clck	1 ano	A Microsoft Clarity define este cookie para reter o ID do Utilizador Clarity do navegador e definicoes exclusivas para aquele website. Isso garante que as acoes realizadas durante visitas subsequentes ao mesmo website sejam associadas ao mesmo ID do utilizador.
_clsk	1 dia	A Microsoft Clarity define este cookie para armazenar e consolidar as visualizacoes de pagina de um utilizador numa unica sessao de gravacao.
_fbp	3 meses	Este cookie é configurado pelo Facebook para exibir anúncios quando estiver no Facebook ou noutra plataforma digital onde é usada publicidade do Facebook
_ga	2 anos	Este cookie é configurado pelo Google Analytics, calcula dados de visitantes, sessões, campanhas e acompanha o uso do site. O cookie armazena informações anónimas atribuindo um número aleatório para distinguir visitantes únicos.
_ga_*	2 anos	Este cookie é configurado pelo Google Analytics é usado para distinguir os visitantes.
_gat	1 minuto	Este cookie é configurado pelo Google Analytics para limitar a taxa de pedidos e coleta de dados em sites de alto volume tráfego.
_gat_gtag_UA_*	1 minuto	Este cookie é configurado pelo Google Analytics usado para distinguir os visitantes.
_gat_UA-*	1 minuto	Este é configurado pelo Google Analytics, onde o elemento padrão no nome contém um número que identifica o site. É uma variação do cookie _gat usado para limitar a quantidade de dados registados pelo Google em sites de alto volume de tráfego.
_gcl_au	3 meses	O Google Tag Manager define o cookie para experimentar a eficiencia de publicidade em websites que utilizam os seus servicos.
_gd*	sessão	Este cookie é configurado pelo Google Analytics é usado para distinguir os visitantes.
_gid	1 dia	Este cookie é configurado pelo Google Analytics guarda um ID único que é usado para gerar dados estatísticos sobre como o visitante usa o site
_hjAbsolutesessaoInProgress	30 minutos	O Hotjar define este cookie para detetar a primeira visualizacao da pagina de um utilizador, que e um sinal Verdadeiro/Falso definido pelo cookie.
_hjFirstSeen	30 minutos	O Hotjar define este cookie para identificar a primeira sessao de um novo utilizador. Ele armazena o valor verdadeiro/falso, indicando se foi a primeira vez que o Hotjar viu este utilizador.
_hjIncludedInsessaoSample_*	2 minutos	Descricao nao esta atualmente disponivel.
_hjRecordingEnabled	nunca	O Hotjar define este cookie quando uma gravacao comeca e e lido quando o modulo de gravacao e inicializado, para verificar se o utilizador ja esta numa gravacao numa sessao especifica.
_hjRecordingLastActivity	nunca	O Hotjar define este cookie quando uma gravacao de utilizador comeca e quando os dados sao enviados atraves do WebSocket.
_hjsessao_*	30 minutos	O Hotjar define este cookie para garantir que os dados de visitas subsequentes ao mesmo site sejam atribuidos ao mesmo ID de utilizador, que persiste no ID de Utilizador Hotjar, unico para esse site.
_hjsessaoUser_*	1 ano	O Hotjar define este cookie para garantir que os dados de visitas subsequentes ao mesmo site sejam atribuidos ao mesmo ID de utilizador, que persiste no ID de Utilizador Hotjar, unico para esse site.
_te_	sessao	O Grupo Adroll regista um ID unico que identifica o dispositivo de um utilizador que regressa. O ID e utilizado para anuncios direcionados.
319af4c0-e197-4de9-8a9b-fe98c8a2ca04	sessão	O Dynamics 365 Marketing usa esta cookie para agrupar todos os carregamentos de página por um determinado visitante que são registrados pelo mesmo script de análise comportamental e que ocorrem dentro do prazo configurado. Ele considera tudo isto como parte de uma única visita no site.
79f08280-5c63-4331-b04d-fb6f39afda51	2 anos	Esta cookie permite que o Dynamics 365 Marketing pontue leads com base no nível de interação em um determinado site. Não contém informações pessoais, mas identifica exclusivamente um navegador específico em uma máquina específica, e o Dynamics 365 Marketing pode usá-lo para correlacionar essa ID com um contacto real na base de dados do Dynamics 365 Marketing.
AnalyticsSyncHistory	1 mês	Este cookie é usado pelo Linkedin para guardar informação sobre quando ocorreu a sincronização com o cookie lms_analytics para os visitantes dos países selecionados.
anj	3 meses	A AppNexus define o cookie anj, que contem dados sobre se um ID de cookie esta sincronizado com parceiros.
ANONCHK	10 minutos	O cookie ANONCHK, definido pelo Bing, e usado para armazenar o ID da sessao do utilizador e verificar os cliques em anuncios no motor de busca Bing. O cookie ajuda na geracao de relatorios e personalizacao.
bcookie	2 anos	Este cookie é usado pelo LinkedIn adiciona tags quando são usados os botões "share" do Linkedin para identificar o browser.
browser_id	5 anos	Este cookie é usado para identificarmos o browser do visitante quando voltar a visitar o website.
CLID	1 ano	Usada pelo Microsoft Clarity, o objetivo desta cookie é gerar um mapa de calor e uma gravação da sessão.
CLID	1 ano	Usada pelo Microsoft Clarity, o objetivo desta cookie é gerar um mapa de calor e uma gravação da sessão.
CMID	1 ano	A Casale Media define este cookie para recolher informacoes sobre o comportamento do utilizador para publicidade direcionada.
CMPRO	3 meses	A CasaleMedia define o cookie CMPRO para rastreamento anonimo de utilizacao e publicidade direcionada.
CMPS	3 meses	A CasaleMedia define o cookie CMPS para rastreamento anonimo de utilizadores com base nas visitas ao website, exibindo anuncios direcionados.
fr	3 meses	Este cookie é usado pelo Facebook permite mostrar anúncios relevantes aos visitantes, analisando o comportamento do visitante noutros websites que possuem pixel do Facebook ou o plugin social do Facebook.
IDE	1 ano 24 dias	Os cookies Google DoubleClick IDE armazenam informacoes sobre como o utilizador utiliza o website para apresentar anuncios relevantes de acordo com o perfil do utilizador.
KRTBCOOKIE_*	3 meses	A Pubmatic define este cookie para registar um ID unico que identifica o dispositivo do utilizador em visitas posteriores a websites que utilizam a mesma rede de anuncios.
li_sugr	3 meses	O LinkedIn define este cookie para recolher dados sobre o comportamento do utilizador, otimizando o website e tornando os anuncios no website mais relevantes.
MR	7 dias	Este cookie, definido pelo Bing, e usado para recolher informacoes do utilizador para fins de analise.
msd365mkttr	2 anos	O Microsoft Dynamic 365 guarda informações sobre o comportamento do utilizador em vários sites. Esta informação é usada para otimizar a relevância do anúncio no site.
msd365mkttr	2 anos	O Microsoft Dynamic 365 guarda informações sobre o comportamento do utilizador em vários sites. Esta informação é usada para otimizar a relevância do anúncio no site.
msd365mkttrs	sessão	Permite a utilização de um formulário específico, que envia os dados preenchidos pelo utilizador para o Microsoft Dynamic 365.
msd365mkttrs	sessão	Permite a utilização de um formulário específico, que envia os dados preenchidos pelo utilizador para o Microsoft Dynamic 365.
MUID	1 ano	Identifica os navegadores que visitam os sites da Microsoft. Estes cookies são usados para análise de sites e outras finalidades operacionais.
MUID	1 ano	Identifica os navegadores que visitam os sites da Microsoft. Estes cookies são usados para análise de sites e outras finalidades operacionais.
PugT	1 mes	A PubMatic define este cookie para verificar quando os cookies foram atualizados no navegador, a fim de limitar o numero de chamadas ao armazenamento de cookies no lado do servidor.
SM	sessao	O cookie da Microsoft Clarity define este cookie para sincronizar o MUID em dominios Microsoft.
SRM_B	1 ano 24 dias	Usado pela Microsoft Advertising como um ID unico para visitantes.
test_cookie	15 minutos	O doubleclick.net define este cookie para verificar se o navegador do utilizador suporta cookies.
UserMatchHistory	1 mês	Este cookie usado pelo LinkedIn para sincronizar os ID dos Ads.
uuid2	3 meses	O cookie uuid2 e definido pela AppNexus e regista informacoes que ajudam a distinguir entre dispositivos e navegadores. Essas informacoes sao usadas para selecionar anuncios entregues pela plataforma e avaliar o desempenho do anuncio e seu pagamento atribuido.
VISITOR_PRIVACY_METADATA	5 meses 27 dias	Cookie utilizado pelo YouTube para rastrear e enriquecer as configurações de privacidade dos utilizadores na plataforma do YouTube.
vuid	2 anos	Este cookie é configurado pelo Vimeo guarda informação através dos vídeos embebidos, posteriormente permitem rastrear o visitante através de um ID único.
YSC	sessão	Este cookie é usado pelo Youtube para guardar as visualizações de videos do youtube embebidos em páginas.
yt.innertube::nextId	nunca	Este cookie é usado pelo YouTube regista um ID único para guardar quais os vídeos que o visitante visualizou.
yt.innertube::requests	nunca	Este cookie é usado pelo YouTube regista um ID único para guardar quais os vídeos que o visitante visualizou.

Três razões para te inscreveres no Open Day em 2020:

Tech Challenge Salesforce: como trabalhar e desenvolver?

Tech Challenge Tableau: como resolver business cases?

O Talento compensa

Ser Xpander por um dia

Expertise goes both ways

O que dizem os estudantes?

O que é o Salesforce?

Como estabelecemos ligação entre o Pentaho Data Integration e Salesforce?

Especificações SOQL

Como extraímos dados do Salesforce com o Pentaho Data Integration?

De que forma o Pentaho Data Integration reconhece registos “novos” / “atualizados” ou “eliminados”?

Como carregar dados para Salesforce via Pentaho Data Integration?

Vem connosco aos maiores eventos de Tecnologia.

Sorteio de Alexa com Simulador de mota

Find the bug

Próxima paragem no Landing Festival: Participa no Workshop Azure!

Data Science Hands-on: “Predicting movies’ worldwide revenue”

Estima-se que cerca de 80% do trabalho diário de um Data Scientist seja em tarefas de tratamento de dados.

Abordagem ao desafio

Conclusões

Joana Pinto

Data Science expert, Xpand IT

Alexandre Gomes

Data Science expert, Xpand IT

Search

Popular Posts

Selecione a sua localização

Portugal

Português

Croácia

Inglês

Alemanha

Alemão

Reino Unido

Inglês

Suécia

Inglês

Global

Inglês