Źródła danych
Strona dokumentuje wszystkie zbiory danych wykorzystywane przez surname.pl. Dla każdego źródła podajemy bezpośredni adres, licencję oraz datę ostatniego pobrania. Skrótowe zestawienie licencji wraz z opisem systemu jakości znajdziesz na stronie Metodologia.
Rejestr źródeł
| Dataset | Adres źródła | Licencja | Data pobrania |
|---|---|---|---|
| GUS PESEL — nazwiska męskie (osoby żyjące) | https://dane.gov.pl/pl/dataset/1681 | CC0 1.0 | 2026-04-06 |
| GUS PESEL — nazwiska żeńskie (osoby żyjące) | https://dane.gov.pl/pl/dataset/1681 | CC0 1.0 | 2026-04-07 |
| GUS PESEL — rozkład wojewódzki | https://dane.gov.pl/pl/dataset/1681 | CC0 1.0 | 2026-04-07 |
| Wikidata SPARQL (P734 — nazwisko) | https://www.wikidata.org/wiki/Property:P734 | CC0 1.0 | 2026-04-07 |
| Polish Wiktionary (XML dump) | https://dumps.wikimedia.org/plwiktionary/ | CC BY-SA 3.0 | 2026-04-07 |
| Kaikki Wiktionary (etymologie EN/DE/RU) | https://kaikki.org/ | CC BY-SA 3.0 | 2026-04-07 |
| Etymologia LLM (Claude) — sztuczna inteligencja | /metodologia (wewnętrzne) | wygenerowane na potrzeby projektu | 2026-04-18 |
| Język pochodzenia LLM (Claude Haiku) — sztuczna inteligencja | /metodologia (wewnętrzne) | wygenerowane na potrzeby projektu | 2026-04-22 |
| Mapa województw (SVG bazowy, własne dzieło) | /metodologia (wewnętrzne) | CC0 1.0 (own work) | 2026-04-27 |
Do czego używamy każdego źródła
Poniżej krótki opis funkcji, jaką każde z powyższych źródeł pełni w pipeline surname.pl. Ten rozdział uzupełnia tabelę o kontekst pipeline’owy — przydatny dla badaczy weryfikujących pochodzenie konkretnej informacji.
- GUS PESEL — nazwiska męskie (osoby żyjące)
- Podstawowy rejestr częstości nazwisk męskich w Polsce. Dane zasilają liczbę «mężczyzn w Polsce» na każdej stronie nazwiska, ranking ogólnopolski oraz listy alfabetyczne (408 182 nazwisk).
- GUS PESEL — nazwiska żeńskie (osoby żyjące)
- Rejestr częstości nazwisk żeńskich. Wykorzystywany do liczby «kobiet w Polsce» na każdej stronie oraz do walidacji form żeńskich generowanych algorytmicznie (-ski → -ska, -cki → -cka).
- GUS PESEL — rozkład wojewódzki
- Liczba nosicieli każdego nazwiska w 16 województwach. Zasila wykres rozkładu regionalnego (choropleth) na każdej stronie nazwiska oraz listy nazwisk rzadkich w danym regionie.
- Wikidata SPARQL (P734 — nazwisko)
- Lista znanych osób noszących dane nazwisko (z linkami do haseł Wikipedii) zaciągana z punktu końcowego SPARQL po właściwości P734. Pojawia się jako sekcja «Znani nosiciele» na stronach nazwisk klasy rich.
- Polish Wiktionary (XML dump)
- Pełny zrzut polskiego Wiktionary parsowany lokalnie w celu wyłuskania haseł nazwisk. Stanowi źródło etykiety «Zweryfikowana etymologia» (zielona kropka) na stronach nazwisk pokrytych przez Wiktionary.
- Kaikki Wiktionary (etymologie EN/DE/RU)
- Strukturyzowane pliki JSONL z anglojęzycznego, niemieckiego i rosyjskiego Wiktionary udostępnione przez projekt Kaikki. Uzupełniają polskie etymologie o ujęcie obcojęzyczne dla nazwisk pochodzenia niesłowiańskiego.
- Etymologia LLM (Claude) — sztuczna inteligencja
- Dla nazwisk niepokrytych przez Wiktionary etymologia jest wygenerowana przez model językowy Claude na podstawie analizy rdzenia, przyrostka i kontekstu lingwistycznego. Każdy wpis ma poziom pewności high / medium / low; wpisy o niskiej pewności są wykluczane z indeksowania (klasa thin).
- Język pochodzenia LLM (Claude Haiku) — sztuczna inteligencja
- Klasyfikator języka pochodzenia (np. polski, niemiecki, ukraiński, łaciński) dla 50 000 najczęstszych nazwisk. Zasila etykietę «Język pochodzenia» na stronach nazwisk oraz filtry hub-pages (rdzenie, przyrostki).
- Mapa województw (SVG bazowy, własne dzieło)
- Ręcznie zbudowany stylizowany szkielet 16 województw Polski (po reformie z 1999 roku). Wykorzystywany przez generator choropleth do tworzenia per-nazwisko map rozkładu regionalnego.
Aktualność danych
Daty w kolumnie «Data pobrania» odnoszą się do momentu pobrania źródłowych plików do lokalnego pipeline’u (nie zaś do daty publikacji datasetu przez wydawcę). Wpisy starsze niż 6 miesięcy są oznaczone etykietą nieaktualne; ich obecność oznacza, że planowane jest odświeżenie zbioru. Daty nie są zaokrąglane ani fałszowane — odświeżenie pliku w pipeline pociąga za sobą bezpośrednią aktualizację tej strony.
Dla skrótowego zestawienia licencji oraz opisu systemu jakości stron nazwisk (klasy rich / acceptable / thin) odsyłamy na stronę Metodologia. Kontekst projektu — kto stoi za serwisem i jaka jest jego motywacja — opisany jest na stronie O nas.