Metodologia
Strona dokumentuje wszystkie zewnętrzne źródła danych wykorzystywane w serwisie surname.pl, ich licencje oraz sposób, w jaki oznaczamy treści zweryfikowane wobec generowanych algorytmicznie. Pełniejszy rejestr datasetów wraz z bezpośrednimi linkami do plików źródłowych znajdziesz na stronie Źródła danych.
Źródła danych i licencje
| Dataset | Licencja | Data pobrania |
|---|---|---|
| Nazwiska występujące w rejestrze PESEL — częstość | CC0 1.0 | 2026-04-06 |
| Nazwiska występujące w rejestrze PESEL — rozkład wojewódzki | CC0 1.0 | 2026-04-07 |
| Wikidata (P734 — nazwisko) | CC0 1.0 | 2026-04-07 |
| Polish Wiktionary (XML dump) | CC BY-SA 3.0 | 2026-04-07 |
| Kaikki Wiktionary (EN/DE/RU etymologie) | CC BY-SA 3.0 | 2026-04-07 |
| Etymologia LLM (Claude) | wygenerowane na potrzeby projektu | 2026-04-18 |
Daty w kolumnie «Data pobrania» odnoszą się do momentu pobrania źródłowych plików. Publiczny zbiór danych «Nazwiska występujące w rejestrze PESEL», udostępniany na portalu dane.gov.pl przez Ministerstwo Cyfryzacji, zawiera stan na styczeń 2026.
Skąd pochodzą etymologie
Pod każdą etymologią na stronie nazwiska znajduje się etykieta z kolorową kropką, która wskazuje jej źródło:
- Zweryfikowana etymologia (zielona kropka) — pochodzi bezpośrednio z polskojęzycznego Wiktionary, opracowanego przez społeczność edytorów (licencja CC BY-SA 3.0).
- Etymologia wygenerowana przez AI (szara kropka) — przygotowana przez model językowy na podstawie analizy rdzenia i przyrostka nazwiska. Ma charakter orientacyjny i może zawierać nieścisłości.
- Etymologia algorytmiczna (szara kropka) — wynik automatycznej analizy budowy nazwiska (rdzeń i przyrostek), bez udziału modelu językowego. Stosowana dla nazwisk, dla których brak jest źródeł zweryfikowanych.
Dzięki etykiecie czytelnik od razu wie, czy ma do czynienia z opracowaniem redaktorów Wiktionary, treścią wygenerowaną przez AI, czy wynikiem analizy budowy nazwiska.