Prevendo o preço de imóveis com Machine Learning – Parte 1
Sempre que pensamos em comprar um imóvel, há diversas características que devemos levar em conta, como, quantidade de quartos, banheiros, tamanho e talvez o mais importante: o preço. Afinal, ninguém quer gastar um valor absurdo em um imóvel e depois descobrir que há um melhor e com preço reduzido. Mas hoje através de técnicas de Ciência de Dados e Machine Learning, já é possível não só prever o preço como também otimizar os retornos financeiros.
E para um fundo imobiliário que precisa medir o ROI, obter as informações necessárias, como conhecer as características dos imóveis, é essencial antes de iniciar um novo business. E você pode estar agora se perguntando: mas como todos esses dados influenciam no preço do imóvel? Para explicar essa premissa, elaboramos um estudo de caso, divido em duas partes, vamos aplicar algumas técnicas estatísticas para entender isso.
A situação que apresentamos é a seguinte: precisamos otimizar o ROI para um fundo imobiliário que quer iniciar seu negócio na região do Condado de King – um dos 39 condados do estado americano de Washington/EUA.
Através de uma análise descritiva, realizada a partir dos dados disponibilizados pelo banco de dados Kaggle – de maio de 2014 até maio de 2015 -, vamos resumir, sumarizar e explorar o comportamento dos dados por meio de gráficos para entender, visualizar e prevê-los. Com o objetivo de conhecer as características das casas e ver qual o impacto delas sob o preço.
Vamos lá?
Preço x Localidade
A primeira coisa que precisamos entender é se existe diferença de preço nas diversas localidades do Condado de King, verificando se alguma área concentra um valor mais alto, ou se, o preço está distribuído igualmente para todos os CEPs.
Abaixo, elaboramos com os dados Kaggle um mapa que auxiliou nesta averiguação. Foi possível observar regiões específicas para descobrir suas respectivas faixas de preço que estão divididas por cores: em vermelho são os valores mais caros, amarelo os altos, verde os médios e em azul os preços mais baixos.
Observando o mapa, entendemos o preço de acordo com a latitude, longitude e CEP das casas. Constatando que os imóveis mais caros estão concentrados em Seattle e nas casas próximas da beira do lago. Além disso, também há uma centralização de preços altos na região de Issaquah Highlands e perto de Clyde Hill (em frente ao Lago Washington).
O seu imóvel pode custar… 1 MILHÃO DE DÓLARES?
Outro ponto importante para entender é a faixa de preço que a região possuí para não corrermos o risco de pagar um valor, sendo que na verdade possuem um valor inferior.
Analisando o gráfico, constatamos que a maior parte dos imóveis tem uma faixa de preço abaixo dos 1.000.000 dólares, sendo que as casas mais baratas custam entorno de 75.000 dólares. Em contrapartida, o imóvel mais caro se aproxima dos 7.700.000 dólares.
Existe uma diferença bem grande entre os imóveis mais baratos e o imóvel mais caro, certo? Isso pode significar que todas as outras características da casa fazem com que ela seja mais ou menos valorizada, além da localização.
Cinco quartos são suficientes
Para verificar se a quantidade de cômodos encarece ou não o preço final, escolhemos algumas dessas características para analisar esta questão:
- Quantidade de banheiros;
- Quantidade de quartos;
- E a nota média da casa – que é baseada em um sistema de notas do Condado de King.
No gráfico abaixo temos as três características: o primeiro gráfico, a relação do preço e a nota média; o segundo gráfico indica a relação entre o preço e a quantidade de quartos; e, por fim, o terceiro gráfico que mostra a relação do preço com a quantidade de banheiros. A “caixa”, conhecida como boxplot, nos diz a variação do preço em relação à alguma outra característica de interesse.
É possível ver que, quanto maior a nota média (primeiro gráfico) e a quantidade de banheiros (terceiro gráfico) maior o preço da casa, pois as “caixas” estão mais elevadas. Porém, o tamanho da “caixa” está maior do que as demais para as casas de 6 e 8 banheiros, indicando que há uma flutuação de preços maior para essas duas quantidades. E há uma casa de 4 banheiros com um valor bem mais alto que os demais, dado pelo ponto preto isolado no gráfico.
Já para a quantidade de quartos (segundo gráfico), o comportamento anterior não é visto: os maiores preços estão concentrados nas casas com 5 e 6 quartos (podendo considerar também as casas com 3 e 4 quartos), dessa vez dado pela quantidade de pontos pretos fora dos limites da “caixa”. É um comportamento curioso, pois espera-se que quanto maior a quantidade de quartos, maior o preço.
Prefiro uma casa nova
Conseguimos analisar também variáveis temporais, como a data que a casa foi vendida e o ano que a casa foi construída. E partir destes dados vamos avaliar se é mais vantajoso comprar uma casa antiga, nova ou se não tem diferença essa característica sob o preço.
No primeiro gráfico (abaixo), vemos a média dos preços em relação à data em que a casa foi vendida. A primeira coisa que chama atenção é que em outubro de 2014 houve um grande aumento do preço médio das casas que foram vendidas – não encontramos nenhum fato histórico que pudesse explicar o motivo -. Mas, no restante das datas de venda o valor médio ficou entre 500.000 mil dólares.
Outro comportamento curioso é do preço médio em relação ao seu ano de construção: as casas que foram construídas até o ano de 1940 possuem um preço médio maior do que as que foram edificadas após este período. E só após 1980 é possível ver um indicativo de aumento do preço médio dos imóveis.
Insights surpreendentes
Chegamos ao final da nossa análise descritiva, e você imaginava que iríamos descobrir que as casas mais caras possuiriam só entre 5 a 6 quartos? E que as casas edificadas até 1940 custariam mais que as construídas atualmente? Estes resultados nos surpreenderam, e o legal é que reforçam a ideia que tomar decisões embasadas em achismo pode ser sinônimo de jogar seu dinheiro no lixo.
Mas por outro lado também obtemos resultados que acredito que você – como nós – já esperávamos encontrar, como que quanto maior a nota média e a quantidade de banheiros, maior o preço. E que um imóvel dificilmente custará mais do que 1.000.000 dólares.
Em resumo, aplicar estas técnicas nos trouxeram informações relevantes que ajudariam o fundo imobiliário a adquirir os imóveis com características específicas com um menor preço. Mas será que conseguiríamos prever por quanto eles conseguiriam revender estas casas?
A resposta é sim, mas precisaríamos trabalhar com outra técnica de Machine Learning, a modelagem. E alerta de spoiler: vamos explicar sobre está técnica avançada na parte 2 deste artigo para mostrar os resultados e exemplos de possíveis clientes do fundo imobiliário. Então, não perca!