Źródła danych

Strona dokumentuje wszystkie zbiory danych wykorzystywane przez surname.pl. Dla każdego źródła podajemy bezpośredni adres, licencję oraz datę ostatniego pobrania. Skrótowe zestawienie licencji oraz opis oznaczeń etymologii znajdziesz na stronie Metodologia.

Rejestr źródeł

Pełny rejestr zbiorów danych wykorzystywanych w surname.pl wraz z URL, licencją i datą pobrania
Dataset	Adres źródła	Licencja	Data pobrania
Nazwiska występujące w rejestrze PESEL — nazwiska męskie	https://dane.gov.pl/pl/dataset/1681	CC0 1.0	2026-04-06
Nazwiska występujące w rejestrze PESEL — nazwiska żeńskie	https://dane.gov.pl/pl/dataset/1681	CC0 1.0	2026-04-07
Nazwiska występujące w rejestrze PESEL — rozkład wojewódzki	https://dane.gov.pl/pl/dataset/1681	CC0 1.0	2026-04-07
Wikidata SPARQL (P734 — nazwisko)	https://www.wikidata.org/wiki/Property:P734	CC0 1.0	2026-04-07
Polish Wiktionary (XML dump)	https://dumps.wikimedia.org/plwiktionary/	CC BY-SA 3.0	2026-04-07
Kaikki Wiktionary (etymologie EN/DE/RU)	https://kaikki.org/	CC BY-SA 3.0	2026-04-07
Etymologia LLM (Claude) — sztuczna inteligencja	/metodologia (wewnętrzne)	wygenerowane na potrzeby projektu	2026-04-18
Język pochodzenia LLM (Claude Haiku) — sztuczna inteligencja	/metodologia (wewnętrzne)	wygenerowane na potrzeby projektu	2026-04-22
Mapa województw (SVG bazowy, własne dzieło)	/metodologia (wewnętrzne)	CC0 1.0 (own work)	2026-04-27

Dane o nazwiskach pochodzą z publicznego zbioru danych «Nazwiska występujące w rejestrze PESEL», udostępnianego na portalu dane.gov.pl przez Ministerstwo Cyfryzacji (licencja CC0 1.0).

Do czego używamy każdego źródła

Poniżej krótki opis funkcji, jaką każde z powyższych źródeł pełni w pipeline surname.pl. Ten rozdział uzupełnia tabelę o kontekst pipeline’owy — przydatny dla badaczy weryfikujących pochodzenie konkretnej informacji.

Nazwiska występujące w rejestrze PESEL — nazwiska męskie: Zasób «nazwiska męskie» publicznego zbioru danych udostępnionego na portalu dane.gov.pl. Dane zasilają liczbę «mężczyzn w Polsce» na każdej stronie nazwiska, ranking ogólnopolski oraz listy alfabetyczne (408 182 nazwisk).
Nazwiska występujące w rejestrze PESEL — nazwiska żeńskie: Zasób «nazwiska żeńskie» tego samego publicznego zbioru danych. Wykorzystywany do liczby «kobiet w Polsce» na każdej stronie oraz do walidacji form żeńskich generowanych algorytmicznie (-ski → -ska, -cki → -cka).
Nazwiska występujące w rejestrze PESEL — rozkład wojewódzki: Zasób z liczbą nosicieli nazwisk w podziale na 16 województw (według województwa zameldowania na pobyt stały). Zasila wykres rozkładu regionalnego (choropleth) na każdej stronie nazwiska oraz listy nazwisk rzadkich w danym regionie.
Wikidata SPARQL (P734 — nazwisko): Lista znanych osób noszących dane nazwisko (z linkami do haseł Wikipedii) zaciągana z punktu końcowego SPARQL po właściwości P734. Pojawia się jako sekcja «Znani nosiciele» na stronach nazwisk.
Polish Wiktionary (XML dump): Pełny zrzut polskiego Wiktionary parsowany lokalnie w celu wyłuskania haseł nazwisk. Stanowi źródło etykiety «Zweryfikowana etymologia» (zielona kropka) na stronach nazwisk pokrytych przez Wiktionary.
Kaikki Wiktionary (etymologie EN/DE/RU): Strukturyzowane pliki JSONL z anglojęzycznego, niemieckiego i rosyjskiego Wiktionary udostępnione przez projekt Kaikki. Uzupełniają polskie etymologie o ujęcie obcojęzyczne dla nazwisk pochodzenia niesłowiańskiego.
Etymologia LLM (Claude) — sztuczna inteligencja: Dla nazwisk niepokrytych przez Wiktionary etymologia jest wygenerowana przez model językowy Claude na podstawie analizy rdzenia, przyrostka i kontekstu lingwistycznego. Etymologie wygenerowane przez AI są wyraźnie oznaczone na stronie nazwiska.
Język pochodzenia LLM (Claude Haiku) — sztuczna inteligencja: Klasyfikator języka pochodzenia (np. polski, niemiecki, ukraiński, łaciński) dla 50 000 najczęstszych nazwisk. Zasila etykietę «Język pochodzenia» na stronach nazwisk oraz filtry hub-pages (rdzenie, przyrostki).
Mapa województw (SVG bazowy, własne dzieło): Ręcznie zbudowany stylizowany szkielet 16 województw Polski (po reformie z 1999 roku). Wykorzystywany przez generator choropleth do tworzenia per-nazwisko map rozkładu regionalnego.

Aktualność danych

Daty w kolumnie «Data pobrania» odnoszą się do momentu pobrania źródłowych plików do lokalnego pipeline’u (nie zaś do daty publikacji datasetu przez wydawcę). Wpisy starsze niż 6 miesięcy są oznaczone etykietą nieaktualne; ich obecność oznacza, że planowane jest odświeżenie zbioru. Daty nie są zaokrąglane ani fałszowane — odświeżenie pliku w pipeline pociąga za sobą bezpośrednią aktualizację tej strony.

Skrótowe zestawienie licencji oraz opis oznaczeń etymologii znajdziesz na stronie Metodologia. Kontekst projektu — kto stoi za serwisem i jaka jest jego motywacja — opisany jest na stronie O nas.