Przejdź do treści

Źródła danych

Strona dokumentuje wszystkie zbiory danych wykorzystywane przez surname.pl. Dla każdego źródła podajemy bezpośredni adres, licencję oraz datę ostatniego pobrania. Skrótowe zestawienie licencji wraz z opisem systemu jakości znajdziesz na stronie Metodologia.

Rejestr źródeł

Pełny rejestr zbiorów danych wykorzystywanych w surname.pl wraz z URL, licencją i datą pobrania
DatasetAdres źródłaLicencjaData pobrania
GUS PESEL — nazwiska męskie (osoby żyjące)https://dane.gov.pl/pl/dataset/1681CC0 1.02026-04-06
GUS PESEL — nazwiska żeńskie (osoby żyjące)https://dane.gov.pl/pl/dataset/1681CC0 1.02026-04-07
GUS PESEL — rozkład wojewódzkihttps://dane.gov.pl/pl/dataset/1681CC0 1.02026-04-07
Wikidata SPARQL (P734 — nazwisko)https://www.wikidata.org/wiki/Property:P734CC0 1.02026-04-07
Polish Wiktionary (XML dump)https://dumps.wikimedia.org/plwiktionary/CC BY-SA 3.02026-04-07
Kaikki Wiktionary (etymologie EN/DE/RU)https://kaikki.org/CC BY-SA 3.02026-04-07
Etymologia LLM (Claude) — sztuczna inteligencja/metodologia (wewnętrzne)wygenerowane na potrzeby projektu2026-04-18
Język pochodzenia LLM (Claude Haiku) — sztuczna inteligencja/metodologia (wewnętrzne)wygenerowane na potrzeby projektu2026-04-22
Mapa województw (SVG bazowy, własne dzieło)/metodologia (wewnętrzne)CC0 1.0 (own work)2026-04-27

Do czego używamy każdego źródła

Poniżej krótki opis funkcji, jaką każde z powyższych źródeł pełni w pipeline surname.pl. Ten rozdział uzupełnia tabelę o kontekst pipeline’owy — przydatny dla badaczy weryfikujących pochodzenie konkretnej informacji.

GUS PESEL — nazwiska męskie (osoby żyjące)
Podstawowy rejestr częstości nazwisk męskich w Polsce. Dane zasilają liczbę «mężczyzn w Polsce» na każdej stronie nazwiska, ranking ogólnopolski oraz listy alfabetyczne (408 182 nazwisk).
GUS PESEL — nazwiska żeńskie (osoby żyjące)
Rejestr częstości nazwisk żeńskich. Wykorzystywany do liczby «kobiet w Polsce» na każdej stronie oraz do walidacji form żeńskich generowanych algorytmicznie (-ski → -ska, -cki → -cka).
GUS PESEL — rozkład wojewódzki
Liczba nosicieli każdego nazwiska w 16 województwach. Zasila wykres rozkładu regionalnego (choropleth) na każdej stronie nazwiska oraz listy nazwisk rzadkich w danym regionie.
Wikidata SPARQL (P734 — nazwisko)
Lista znanych osób noszących dane nazwisko (z linkami do haseł Wikipedii) zaciągana z punktu końcowego SPARQL po właściwości P734. Pojawia się jako sekcja «Znani nosiciele» na stronach nazwisk klasy rich.
Polish Wiktionary (XML dump)
Pełny zrzut polskiego Wiktionary parsowany lokalnie w celu wyłuskania haseł nazwisk. Stanowi źródło etykiety «Zweryfikowana etymologia» (zielona kropka) na stronach nazwisk pokrytych przez Wiktionary.
Kaikki Wiktionary (etymologie EN/DE/RU)
Strukturyzowane pliki JSONL z anglojęzycznego, niemieckiego i rosyjskiego Wiktionary udostępnione przez projekt Kaikki. Uzupełniają polskie etymologie o ujęcie obcojęzyczne dla nazwisk pochodzenia niesłowiańskiego.
Etymologia LLM (Claude) — sztuczna inteligencja
Dla nazwisk niepokrytych przez Wiktionary etymologia jest wygenerowana przez model językowy Claude na podstawie analizy rdzenia, przyrostka i kontekstu lingwistycznego. Każdy wpis ma poziom pewności high / medium / low; wpisy o niskiej pewności są wykluczane z indeksowania (klasa thin).
Język pochodzenia LLM (Claude Haiku) — sztuczna inteligencja
Klasyfikator języka pochodzenia (np. polski, niemiecki, ukraiński, łaciński) dla 50 000 najczęstszych nazwisk. Zasila etykietę «Język pochodzenia» na stronach nazwisk oraz filtry hub-pages (rdzenie, przyrostki).
Mapa województw (SVG bazowy, własne dzieło)
Ręcznie zbudowany stylizowany szkielet 16 województw Polski (po reformie z 1999 roku). Wykorzystywany przez generator choropleth do tworzenia per-nazwisko map rozkładu regionalnego.

Aktualność danych

Daty w kolumnie «Data pobrania» odnoszą się do momentu pobrania źródłowych plików do lokalnego pipeline’u (nie zaś do daty publikacji datasetu przez wydawcę). Wpisy starsze niż 6 miesięcy są oznaczone etykietą nieaktualne; ich obecność oznacza, że planowane jest odświeżenie zbioru. Daty nie są zaokrąglane ani fałszowane — odświeżenie pliku w pipeline pociąga za sobą bezpośrednią aktualizację tej strony.

Dla skrótowego zestawienia licencji oraz opisu systemu jakości stron nazwisk (klasy rich / acceptable / thin) odsyłamy na stronę Metodologia. Kontekst projektu — kto stoi za serwisem i jaka jest jego motywacja — opisany jest na stronie O nas.