Metodologia danych datvio
Jak zbieramy, normalizujemy i wzbogacamy dane z portali nieruchomościowych — z poszanowaniem RODO i regulaminów portali.
datvio to platforma danych, nie scraper. To rozróżnienie ma znaczenie — zarówno techniczne, jak i prawne. Poniżej krótko, jak pracujemy.
Skąd pochodzą dane
Indeksujemy publicznie dostępne oferty z portali nieruchomościowych, ogłoszeń pracy i e-commerce. Tylko strony, które nie wymagają logowania i nie blokują nas w robots.txt. Każde wywołanie portalu jest zapisywane w naszym audycie zgodności — możemy w każdej chwili pokazać, co i kiedy zostało pobrane.
Co wyrzucamy z danych
- Telefony osób fizycznych (regex PL:
+48 XXX XXX XXXi warianty) - Adresy e-mail prywatne (zostawiamy tylko firmowe domeny agencji)
- Numery PESEL i NIP osób fizycznych
- Imię i nazwisko sprzedającego prywatnego (jeśli można je odróżnić od nazwy agencji)
Zostawiamy nazwy agencji, telefony służbowe agencji, numery licencji pośredników — to dane biznesowe (RODO art. 6 ust. 1 lit. f).
Co normalizujemy
Każda oferta przed zapisem przechodzi przez normalizator wertykała:
- Cena — usuwamy spacje, walutę, normalizujemy do PLN (kurs NBP z dnia)
- Powierzchnia — m² jako liczba zmiennoprzecinkowa
- Lokalizacja — mapowanie do TERYT (oficjalny rejestr GUS) z fallback na fuzzy match
- Typ nieruchomości — taksonomia 4-poziomowa (mieszkanie / dom / działka / lokal)
- Typ transakcji — sprzedaż / wynajem (z auto-detekcją z opisu, gdy portal nie udostępnia)
Co utrzymujemy w czasie
Każda zmiana w aktywnym ogłoszeniu (cena, opis, status) trafia do osi czasu — entity_history. Dzięki temu można zobaczyć:
- jak długo mieszkanie było wystawione
- ile razy zmieniono cenę i o ile
- czy oferta wróciła po wycofaniu
To historia, której same portale nie udostępniają — i to jest jedna z głównych wartości platformy.
Otwartość metodologii
Wszystkie nasze schematy danych, lista źródeł i częstotliwość odświeżania są publiczne. Pełna dokumentacja API znajduje się na /docs. Pytania metodologiczne kierujemy na [email protected].