Metodologia
Strona dokumentuje wszystkie zewnętrzne źródła danych wykorzystywane w serwisie surname.pl, ich licencje oraz sposób, w jaki oznaczamy treści zweryfikowane wobec generowanych algorytmicznie. Pełniejszy rejestr datasetów wraz z bezpośrednimi linkami do plików źródłowych znajdziesz na stronie Źródła danych.
Źródła danych i licencje
| Dataset | Licencja | Data pobrania |
|---|---|---|
| GUS PESEL — częstość nazwisk | CC0 1.0 | 2026-04-06 |
| GUS PESEL — rozkład wojewódzki | CC0 1.0 | 2026-04-07 |
| Wikidata (P734 — nazwisko) | CC0 1.0 | 2026-04-07 |
| Polish Wiktionary (XML dump) | CC BY-SA 3.0 | 2026-04-07 |
| Kaikki Wiktionary (EN/DE/RU etymologie) | CC BY-SA 3.0 | 2026-04-07 |
| Etymologia LLM (Claude) | wygenerowane na potrzeby projektu | 2026-04-18 |
Daty w kolumnie «Data pobrania» odnoszą się do momentu pobrania źródłowych plików; rejestr PESEL prowadzony przez GUS zawiera dane o stanie na styczeń 2026.
System jakości danych
Każdej stronie nazwiska przypisujemy jeden z trzech poziomów jakości. Klasyfikacja jest egzekwowana na poziomie szablonu strony oraz generatora sitemap.xml — strony niespełniające minimalnych wymagań są wyłączone z indeksowania w wyszukiwarkach.
rich— etymologia zweryfikowana lub wygenerowana przez LLM z weryfikacją oraz dane o rozkładzie wojewódzkim oraz lista znanych osób noszących nazwisko. Strona indeksowana, obecna wsitemap.xml.acceptable— jakakolwiek etymologia (algorytmiczna, LLM lub Wiktionary) wraz z danymi o rozkładzie wojewódzkim. Strona indeksowana, obecna wsitemap.xml.thin— minimalne dane: brak etymologii lub brak rozkładu. Strona oznaczona<meta name="robots" content="noindex,follow">oraz wykluczona zsitemap.xml. Pozostaje dostępna pod bezpośrednim adresem URL, ale nie pojawia się w wynikach wyszukiwania.
Etymologia zweryfikowana vs. algorytmiczna
Pod każdą sekcją etymologii na stronie nazwiska znajduje się etykieta z kropką i krótkim opisem źródła. Trzy warianty są jednoznacznie rozróżnialne wizualnie:
- Zweryfikowana etymologia (zielona kropka) — pochodzi bezpośrednio z polskojęzycznego Wiktionary, opracowana przez społeczność edytorów na licencji CC BY-SA 3.0. Pole
etymology.source = "wiktionary". - Etymologia wygenerowana · AI (szara kropka) — wygenerowana przez model językowy Claude na podstawie korpusu lingwistycznego oraz analizy rdzenia i przyrostka, następnie poddana automatycznej walidacji. Pole
etymology.source = "llm"; każdy wpis ma dodatkowo poziom pewnościconfidence: high | medium | low. Etymologie z poziomemlowsą celowo nieprezentowane lub wykluczone z indeksowania w ramach klasythin. - Etymologia algorytmiczna (szara kropka) — wygenerowana czysto deterministycznie z analizy przyrostka i rdzenia, bez udziału modelu językowego. Pole
etymology.source = "algorithmic". Stosowana dla nazwisk, dla których brak jest źródeł zweryfikowanych ani LLM-owych.
Każda etykieta jest renderowana w bezpośrednim sąsiedztwie tekstu etymologii, dzięki czemu czytelnik na pierwszy rzut oka wie, czy ma do czynienia z opracowaniem ludzkiego edytora, treścią wygenerowaną przez AI, czy wynikiem analizy strukturalnej. Spis pełnych pól zwracanych dla każdego nazwiska — wraz z danymi statystycznymi GUS — znajduje się na stronie Źródła danych.