Przejdź do treści

Metodologia

Strona dokumentuje wszystkie zewnętrzne źródła danych wykorzystywane w serwisie surname.pl, ich licencje oraz sposób, w jaki oznaczamy treści zweryfikowane wobec generowanych algorytmicznie. Pełniejszy rejestr datasetów wraz z bezpośrednimi linkami do plików źródłowych znajdziesz na stronie Źródła danych.

Źródła danych i licencje

Źródła danych i licencje wykorzystywane w surname.pl
DatasetLicencjaData pobrania
GUS PESEL — częstość nazwiskCC0 1.02026-04-06
GUS PESEL — rozkład wojewódzkiCC0 1.02026-04-07
Wikidata (P734 — nazwisko)CC0 1.02026-04-07
Polish Wiktionary (XML dump)CC BY-SA 3.02026-04-07
Kaikki Wiktionary (EN/DE/RU etymologie)CC BY-SA 3.02026-04-07
Etymologia LLM (Claude)wygenerowane na potrzeby projektu2026-04-18

Daty w kolumnie «Data pobrania» odnoszą się do momentu pobrania źródłowych plików; rejestr PESEL prowadzony przez GUS zawiera dane o stanie na styczeń 2026.

System jakości danych

Każdej stronie nazwiska przypisujemy jeden z trzech poziomów jakości. Klasyfikacja jest egzekwowana na poziomie szablonu strony oraz generatora sitemap.xml — strony niespełniające minimalnych wymagań są wyłączone z indeksowania w wyszukiwarkach.

Etymologia zweryfikowana vs. algorytmiczna

Pod każdą sekcją etymologii na stronie nazwiska znajduje się etykieta z kropką i krótkim opisem źródła. Trzy warianty są jednoznacznie rozróżnialne wizualnie:

Każda etykieta jest renderowana w bezpośrednim sąsiedztwie tekstu etymologii, dzięki czemu czytelnik na pierwszy rzut oka wie, czy ma do czynienia z opracowaniem ludzkiego edytora, treścią wygenerowaną przez AI, czy wynikiem analizy strukturalnej. Spis pełnych pól zwracanych dla każdego nazwiska — wraz z danymi statystycznymi GUS — znajduje się na stronie Źródła danych.