GUS Przestrzenne Dane Statystyczne GUS Przestrzenne Dane Statystyczne

Portal Geostatystyczny jako narzędzie do udostępniania i analizowania danych statystycznych

Nowy Portal Geostatystyczny powstał w ramach projektu „Przestrzenne Dane Statystyczne w Systemie Informacyjnym Państwa (PDS)”, który jest realizowany zgodnie z porozumieniem o dofinansowanie nr POPC.02.01.00-00-0083/18-00 pomiędzy Centrum Projektów Polska Cyfrowa (CPPC) a Głównym Urzędem Statystycznym (GUS) z dnia 27 kwietnia 2018 r. w ramach II Osi priorytetowej POPC – „E-administracja i otwarty rząd” Działanie 2.1. „Wysoka dostępność i jakość e-usług publicznych”.

Cel projektu PDS

Celem głównym projektu PDS jest poszerzenie zakresu oraz dostępności informacji statystycznych i metod analiz geostatystycznych wykorzystujących zasoby statystyki publicznej. Na cel główny składają się poszczególne cele szczegółowe:

  • poprawa dostępności e-usług,
  • dostarczenie nowych funkcjonalności i rozszerzenie funkcjonalności usług istniejących,
  • rozbudowa infrastruktury o elementy niezbędne do świadczenia e-usług na wysokim poziomie dojrzałości.

Cel ten został zrealizowany przez dostarczenie nowych lub rozbudowę istniejących usług Portalu Geostatystycznego oraz z uwzględnieniem wynikowych informacji opracowywanych na bieżąco w ramach Programu Badań Statystycznych Statystyki Publicznej, a także innych przedsięwzięć statystyki publicznej, w tym projektów realizowanych w ramach umów o dotacje. Usługi powstałe w ramach projektu PDS prezentują posiadane przez statystykę publiczną dane oraz wyniki analiz geostatystycznych, krytyczne dla funkcjonowania państwa, samorządów i społeczności lokalnych. Dane te mogą być prezentowane w dogodnej formie graficznej (głównie mapowej) przyspieszając podejmowanie procesów decyzyjnych. Dodatkowym celem jest utworzenie rozwiązań wspomagających prezentację wyników bieżących badań statystycznych.

Korzyści płynące z projektu PDS dla użytkowników

Do 2022 roku statystyka publiczna prezentowała dane na mapach za pomocą Portalu Geostatystycznego, który oferował jedynie dwie usługi. W projekcie PDS usługi te zostały rozbudowane oraz wytworzone zostały trzy nowe usługi, istotne dla użytkowników zewnętrznych oraz jedna niezbędna usługa wewnętrzna usprawniająca funkcjonowanie całego systemu.

Pomysł tworzenia nowego systemu w ramach projektu PDS zarysował się w trakcie bezpośrednich kontaktów z użytkownikami danych statystyki publicznej. Podczas konferencji promującej projekt Portal Geostatystyczny – Faza II zgłoszono szereg potrzeb użytkowników, w tym problem konieczności dostępu do danych jednostkowych, zapewnienie ich łączenia z danymi użytkownika oraz potrzebę wykonywania bardziej zaawansowanych analiz, niż te dostępne w Portalu Geostatystycznym. Zapotrzebowanie to było zgłaszane wielokrotnie przy okazji spotkań (m.in. szkoleń) z użytkownikami informacji statystycznych udostępnianych przez GUS, w tym z przedstawicielami jednostek i instytucji publicznych oraz prywatnych, chcącymi wykonywać bardziej precyzyjne analizy związane np. z lokalizacją przestrzenną inwestycji.

Potrzeby użytkowników rozważane były m.in. poprzez pryzmat aktualnych ograniczeń funkcjonalnych Portalu Geostatystycznego, w kontekście rosnących potrzeb decyzyjnych. Zwracano uwagę na potrzebę posiadania rozwiązań, które poza analizą geostatystyczną zapewnią określenie charakterystyki rozkładu przestrzennego danego zjawiska w danym obszarze. Użytkownicy informowali często o potrzebie zapewnienia „jakiejś metody” kontrolowanego dostępu do jednostkowych danych statystycznych tj. tych, które dają najszersze spektrum możliwości i największą dokładność analiz. Podkreślano, iż zbyt wysoki poziom agregacji danych statystycznych jest w niektórych przypadkach zbyt mało precyzyjny, a dobrym rozwiązaniem mogłoby być dostosowanie wielkości oczka siatki kilometrowej tak, aby była możliwa bardziej dokładna analiza zjawisk w gęsto zaludnionych obszarach miejskich (tj. poniżej 1 km). Zwracano uwagę na potrzebę zapewnienia możliwości jak najszerszego wykorzystania danych statystycznych, zastosowania różnorodnych danych własnych użytkownika oraz umożliwienie samodzielnego prowadzenia zaawansowanych analiz statystycznych, szczególnie w ujęciu przestrzennym.

Istotą projektu PDS była rozbudowa istniejącego Portalu Geostatystycznego o nowe funkcjonalności, które pozwolą w szczególności na lepsze zaspokajanie potrzeb użytkowników (obywateli, przedsiębiorców i administracji publicznej) jak również na poprawę funkcjonowania służby statystyki publicznej.

System w ramach projektu PDS docelowo przejął funkcjonalności Portalu Geostatystycznego i znacznie je rozszerzył. Związane to jest nie tyko z przejęciem kompletu funkcjonalności Portalu Geostatystycznego, ale również z przejęciem (migracją) danych tego systemu.

W ramach projektu PDS poszerzone i unowocześnione zostały funkcjonalności wcześniej udostępnionych usług w zakresie m.in. przygotowywania analiz statystycznych w dowolnym podziale przestrzeni, np. zdefiniowanym w aplikacji przez użytkownika, pobranym z zewnętrznych usług przestrzennych, w „dynamicznej” siatce podziału przestrzeni, a także możliwości łączenia danych statystycznych oraz własnych danych użytkownika, geokodowania obiektów użytkownika wykorzystywanych do analiz geostatystycznych.

Wytworzone zostały również nowe usługi umożliwiające zastosowanie eksploracyjnych analiz danych przestrzennych wykorzystujących informacje statystyczne, wykonywanie analiz z zakresu modelowania geostatystycznego oraz wspomagające tzw. wzbogacanie treści własnych użytkownika o informacje i analizy geostatystyczne.

Usługi te pozwalają użytkownikom na przeprowadzane zaawansowanych statystycznych analiz przestrzennych na danych zebranych w badaniach statystyki publicznej. Dodatkowo użytkownik ma możliwość łączenia danych własnych z danymi statystycznymi i na ich podstawie może tworzyć unikalne analizy.

W ramach projektu PDS zrealizowane zostały zadania zmierzające do udoskonalenia i poszerzenia funkcjonalności udostępnionych usług w ramach zrealizowanego projektu Portal Geostatystyczny – Faza II oraz budowa nowych, oczekiwanych przez użytkowników, zaawansowanych usług przestrzennych. Produktami projektu są następujące e-usługi publiczne:

US-01 – Usługa dostępu z urządzeń komputerowych do wynikowych informacji statystycznych zgromadzonych w Portalu z możliwością wykonywania zaawansowanych analiz przestrzennych oraz do danych i metadanych infrastruktury informacji przestrzennej

Usługa US-01 to podstawowe narzędzia do wizualizacji danych statystycznych na mapach. Podstawowe, ale jednocześnie rozbudowane i oferujące wiele metod wizualizacji danych. Użytkownik w kilku prostych krokach będzie mógł utworzyć wizualizację dostosowaną do swoich potrzeb. W tym celu wykonać będzie musiał następujące czynności:

  • wybór danych (dane udostępnione przez statystykę, np. BDL lub dane własne),
  • wybór obszaru (analiza dla całej Polski lub np. wybranego województwa),
  • wybór metody wizualizacji (np. kartogram lub wiele rodzajów kartodiagramów),
  • wybór parametrów metody (dostosowanie wizualizacji do swoich potrzeb).

Przygotowaną w ten sposób prezentację użytkownik będzie mógł zapisać w repozytorium, a także udostępnić na zewnątrz poprzez link lub media społecznościowe.

Dotychczasowy Portal Geostatystyczny oferował bogaty zakres kartograficznych metod prezentacji: kartogram oraz szereg podstawowych kartodiagramów kołowych i słupkowych. W ramach budowy systemu katalog metod został dodatkowo rozszerzony m.in. o zaawansowane kartodiagramy.

Nowy system rozszerzył możliwości wizualizacji danych na siatkach kilometrowych wprowadzając dynamiczne siatki podziału przestrzeni, które będą tworzone z uwzględnieniem ochrony tajemnicy statystycznej. Agregacja danych punktowych (np. o populacji) do siatek statystycznych to bardzo popularna wśród użytkowników metoda wizualizacji danych.

Ważną dla użytkowników funkcjonalnością jest możliwość edycji parametrów wizualizacji już po jej utworzeniu, a także prosta wizualizacja zmienności danych statystycznych w czasie. Statystyka posiada ogromny zasób danych gromadzonych co roku, dlatego nowy system umożliwia wygodną wizualizację szeregów czasowych na mapach (np. za pomocą „suwaka”).

US-02 – Usługa dostępu z urządzeń mobilnych do wynikowych informacji statystycznych zgromadzonych w Portalu oraz do ich wizualizacji na mapach

Usługa US-02 to prezentacja na urządzeniu mobilnym tych funkcjonalności usługi US-01, których możliwa jest wizualizacja na mniejszym ekranie. Aplikacja komputerowa oraz mobilna korzystają z tego samego repozytorium analiz przestrzennych.

Aplikacja mobilna umożliwia przeglądanie na urządzeniu mobilnych danych przestrzennych, pozwala na sprawne udostępnianie produktów nowego systemu w mediach społecznościowych, a także proponuje popularne statystyki w bieżącej lokalizacji.

US-03 – Usługa umożliwiająca zastosowanie eksploracyjnych analiz danych przestrzennych wykorzystujących informacje statystyczne udostępniane przez Portal

Usługa US-03 umożliwia użytkownikom wykonanie eksploracyjnych analiz danych przestrzennych wykorzystujących informacje statystyczne udostępniane przez Portal Geostatystyczny.

Udostępnione narzędzia dają użytkownikom możliwość zbadania rozkładu przestrzennego analizowanych zmiennych oraz określenia przestrzennych powiązań, współzależności, a także występowania skupień.

Wśród możliwych do wykorzystania metod statystycznych są m.in. statystyki tendencji centralnej, statystyki dyspersji, miary asymetrii i koncentracji, analizy korelacji zmiennych. Przykładowo dzięki wykorzystaniu miar tendencji centralnej użytkownik może uzyskać informację o najbardziej typowej, bądź reprezentatywnej wartości dla badanej populacji. Natomiast stosując tę miarę do danych przestrzennych może dodatkowo wyznaczyć punkt, w promieniu którego występuje największa koncentracja jednostek o pożądanych cechach. Wyliczenie takich statystyk może służyć m.in. do określenia optymalnej lokalizacji dla nowej inwestycji.

W ramach usługi oferowane są również metody analizy porównawczej opartej o grupowanie obiektów we względnie jednorodne klasy (analiza skupień). Dostępnych jest kilka najbardziej powszechnych metod grupowania obiektów. System umożliwia także badanie występowania autokorelacji przestrzennej, a tym samym identyfikację klasterów przestrzennych o zbliżonych wartościach obserwowanych zmiennych. Wszystkie metody analizy danych dostępne w ramach usługi umożliwiają łączenie danych własnych użytkownika z danymi statystycznymi.

US-04 – Usługa umożliwiająca wykonanie analiz z zakresu modelowania geostatystycznego

Przeznaczeniem kolejnej nowej usługi US-04 jest umożliwienie użytkownikom uogólniania/estymowania wyników badania zjawiska przeprowadzonego na wybranej próbie losowej na inne badane jednostki bądź populację tych jednostek. W tym celu udostępnione zostały użytkownikom funkcjonalności w zakresie:

  • budowy modelu (proces obejmujący analizę danych oraz wybór zdefiniowanych wcześniej lub budowę nowych modeli probabilistycznych),
  • zastosowania modelu probabilistycznego pozwalającego na wnioskowanie (estymowanie) o wartości zmiennej objaśnianej na podstawie wyników badania próby losowej (tj. na podstawie zebranych danych) i przyjętego rozkładu prawdopodobieństwa.

W ramach usługi udostępnione są wybrane modele ekonometryczne, statystyki i testy służące do weryfikacji jakości tych modeli. Dodatkowo, użytkownicy mają możliwość zastosowania kilku metod interpolacji przestrzennej, co pozwala im na oszacowanie wartości zmiennej o charakterze ciągłym w punktach, dla których nie posiadają danych. Usługa modelowania geostatystycznego umożliwia użytkownikom korzystanie z własnych danych, a także łączenie ich z danymi statystycznymi.

US-05 – Usługa wspomagająca wzbogacanie treści własnych użytkownika o informacje i analizy geostatystyczne udostępniane przez Portal

Użytkownik dzięki usłudze może dotrzeć do dokumentów powiązanych semantycznie z aktualnie prowadzonymi przez niego pracami analitycznymi. Pozwala to na bardziej kompleksowe prowadzenie analiz, jak również umożliwia unikanie błędów wynikających z niewłaściwie przygotowanego modelu analitycznego. Przykładowo, jeżeli analityk będzie wykonywał analizy przestrzenne dla wybranego miasta dotyczące liczby ludności, powinien automatycznie otrzymać listę powiązanych dokumentów, co pozwoli mu na sprawdzenie wyników podobnych analiz i tym samym podjęcie decyzji o publikacji lub ponownej weryfikacji otrzymanych wyników własnych analiz.

Dzięki mechanizmom automatycznej analizy treści (tj. wykorzystaniu procesu „text mining”) oraz w połączeniu z dostępnymi w nowym systemie metadanymi opisującymi dostępne analizy geostatystyczne, usługa oferuje użytkownikowi możliwość uzupełniania treści własnych o charakterze tekstowym o elementy graficzne (w tym mapy) będące wizualizacją analiz geostatystycznych.

Dzięki tej funkcjonalności użytkownik może dotrzeć do dokumentów, które mogą go zainteresować, a nie zostałyby pokazane, gdyby wyszukiwanie informacji bazowało jedynie na prostym wyszukiwaniu po słowach kluczowych. Ponadto zaawansowani użytkownicy, posługujący się językami programowania mają możliwość wyszukiwania poprzez interfejs API.

Innowacyjność projektu PDS

Usługi powstałe w ramach projektu PDS będą udzielać wsparcia dla użytkowników w procesach podejmowania decyzji związanych z informacją statystyczną i przestrzenną oraz pozwalają na praktyczne zastosowanie analiz przestrzennych oraz o charakterze data mining, zarówno w działaniach komercyjnych, jak również prowadzonych przez administrację rządową i samorządową oraz naukową. Funkcjonalności wytworzone w ramach projektu umożliwiają przeprowadzanie analiz na zbiorach danych przestrzennych oraz zasobach statystyki publicznej, pozwalając uzyskać niedostępne dotąd wyniki, a także zoptymalizować procesy biznesowe, wzbogacając w sposób istotny system informacyjny państwa. Dodatkowo, z uwagi na innowacyjny i unikalny charakter, produkty projektu mogą być wykorzystywane w badaniach naukowych m. in. do analizy relacji pomiędzy zjawiskami z różnych dziedzin badawczych. Usługi projektu PDS są unikalnym rozwiązaniem, niemającym odpowiednika wśród rozwiązań/systemów dostępnych na rynku.