Metodologia

Strona dokumentuje wszystkie zewnętrzne źródła danych wykorzystywane w serwisie surname.pl, ich licencje oraz sposób, w jaki oznaczamy treści zweryfikowane wobec generowanych algorytmicznie. Pełniejszy rejestr datasetów wraz z bezpośrednimi linkami do plików źródłowych znajdziesz na stronie Źródła danych.

Źródła danych i licencje

Źródła danych i licencje wykorzystywane w surname.pl
Dataset	Licencja	Data pobrania
Nazwiska występujące w rejestrze PESEL — częstość	CC0 1.0	2026-04-06
Nazwiska występujące w rejestrze PESEL — rozkład wojewódzki	CC0 1.0	2026-04-07
Wikidata (P734 — nazwisko)	CC0 1.0	2026-04-07
Polish Wiktionary (XML dump)	CC BY-SA 3.0	2026-04-07
Kaikki Wiktionary (EN/DE/RU etymologie)	CC BY-SA 3.0	2026-04-07
Etymologia LLM (Claude)	wygenerowane na potrzeby projektu	2026-04-18

Daty w kolumnie «Data pobrania» odnoszą się do momentu pobrania źródłowych plików. Publiczny zbiór danych «Nazwiska występujące w rejestrze PESEL», udostępniany na portalu dane.gov.pl przez Ministerstwo Cyfryzacji, zawiera stan na styczeń 2026.

Skąd pochodzą etymologie

Pod każdą etymologią na stronie nazwiska znajduje się etykieta z kolorową kropką, która wskazuje jej źródło:

Zweryfikowana etymologia (zielona kropka) — pochodzi bezpośrednio z polskojęzycznego Wiktionary, opracowanego przez społeczność edytorów (licencja CC BY-SA 3.0).
Etymologia wygenerowana przez AI (szara kropka) — przygotowana przez model językowy na podstawie analizy rdzenia i przyrostka nazwiska. Ma charakter orientacyjny i może zawierać nieścisłości.
Etymologia algorytmiczna (szara kropka) — wynik automatycznej analizy budowy nazwiska (rdzeń i przyrostek), bez udziału modelu językowego. Stosowana dla nazwisk, dla których brak jest źródeł zweryfikowanych.

Dzięki etykiecie czytelnik od razu wie, czy ma do czynienia z opracowaniem redaktorów Wiktionary, treścią wygenerowaną przez AI, czy wynikiem analizy budowy nazwiska.