Gdy ogłaszane jest nowe odkrycie naukowe, w jaki sposób można ocenić stopień jego wiarygodności? Temu właśnie zagadnieniu przyjrzę się w serii trzech artykułów.
Twierdzenia opierają się na świadectwach, a różne rodzaje i ilości danych zapewniają różne poziomy wiarygodności. Jeśli świadectwa są ze sobą sprzeczne, pierwszeństwo należy przyznać tym, które uzasadniają wyższy stopień wiarygodności. Jeżeli natomiast dostępne dane pozwalają jedynie na niski poziom wiarygodności, wszelkie wnioski powinny być formułowane ostrożnie.
Ponieważ medycyna dotyczy kwestii życia i śmierci, można by rzec, że stanowi ona najważniejsze pole zastosowania nauki – przynajmniej z perspektywy potencjalnych korzyści dla społeczeństwa. Z tego powodu powołano odpowiednie instytucje regulacyjne (takie jak amerykańska agencja FDA) oraz zaczęto wymagać, aby wytyczne z zakresu medycyny opierały się na solidnych świadectwach1. Ta silna presja skłoniła środowisko lekarskie do opracowania hierarchii świadectw medycznych – przejrzystych klasyfikacji wskazujących, które ze świadectw budzą największe zaufanie2. Na przykład oceniając świadectwa skuteczności jakiegoś medykamentu, wszyscy lekarze bezsprzecznie zgodzą się, że poprawnie przeprowadzone, randomizowane i kontrolowane badanie kliniczne daje znacznie wyższy poziom wiarygodności niż przeszukiwanie baz danych w celu podsumowania wyników u osób, które same zdecydowały o przyjmowaniu lub nieprzyjmowaniu leku (co określa się mianem retrospektywnego badania obserwacyjnego).
Sześć kryteriów wiarygodności
Inne dziedziny nauki, które nie musiały mierzyć się z tak silną presją, nie wypracowały podobnej hierarchii wiarygodności świadectw. Chociaż specyficzne metody stosowane w medycynie (tj. randomizowane badania kliniczne z grupą kontrolną) nie zawsze dają się bezpośrednio zastosować w innych obszarach nauki, ta dobrze ugruntowana medyczna hierarchia świadectw dostarcza ogólnych zasad, które można z powodzeniem zastosować do wszystkich dziedzin naukowych. Zasady te można ująć w postaci sześciu kryteriów służących do oceny dowolnego rodzaju danych3:
- Czy wyniki są powtarzalne?
Uzyskiwanie tego samego rezultatu w kolejnych próbach w oczywisty sposób zwiększa poziom wiarygodności.
- Czy świadectwa można bezpośrednio zmierzyć lub zaobserwować?
Im bardziej bezpośredni pomiar lub obserwacja, tym większa wiarygodność. Na przykład czarne dziury można badać jedynie pośrednio, podczas gdy ruch Księżyca po orbicie można obserwować bezpośrednio.
- Czy świadectwa uzyskano w badaniu prospektywnym?
Wcześniejsze zaplanowanie eksperymentu daje możliwość wyeliminowania czynników zakłócających – czyli wszystkiego, co mogłoby utrudnić dotarcie do prawdy. Jeśli zostanie to zrobione właściwie, badania prospektywne mogą bezpośrednio wykazać, co było przyczyną zaobserwowanych rezultatów.
- Czy zminimalizowano stronniczość?
Każdy z nas ma jakieś uprzedzenia, a dla rzetelnej nauki szczególnie destrukcyjna jest stronniczość. Często można ją wykryć, sprawdzając, kto zyskuje na danym twierdzeniu naukowym. Należy podejmować aktywne kroki w celu wyeliminowania tego problemu, na przykład powierzając przeprowadzenie pomiarów niezależnej stronie trzeciej w ramach tzw. ślepej próby.
- Czy ograniczono założenia, a te, które pozostały, są jawnie przedstawione?
W nauce przyjmowanie założeń często pozwala oszczędzić czas i pieniądze. Najpierw jednak należy je ograniczyć, a te, które pozostają, powinny być otwarcie przedstawione i uzasadnione. Ukryte założenia są dla nauki szczególnie szkodliwe.
- Czy wysunięto racjonalne twierdzenia?
Twierdzenia powinny być oparte na świadectwach, a nie na nadmiernej ekstrapolacji czy wyolbrzymieniach. Nie należy przeceniać wyników eksperymentu – odnoszą się one ściśle tylko do badanych warunków. Stosowanie ostrożnego języka, na przykład „te wyniki sugerują…”, pozwala oddać właściwy poziom wiarygodności. Sformułowania skrajne, takie jak „zawsze”, „nigdy” czy „ostateczny dowód”, to często sygnały ostrzegawcze wskazujące na przesadzone twierdzenia. Sugerują one, że badacz przestał być naukowcem, a stał się sprzedawcą.
Pierwsze trzy kryteria odnoszą się do jakości badania naukowego, podczas gdy trzy ostatnie mówią więcej o rzetelności samego naukowca. Kryteria te nie dają prostej, zero-jedynkowej oceny wiarygodności – pozwalają raczej określić stopień zaufania, jakim można obdarzyć dane świadectwa. Świadectwa o wyższej wiarygodności powinny mieć pierwszeństwo przed tymi o niższej wiarygodności – i na szczęście lekarze stosują tę zasadę na co dzień.
Pouczająca lekcja pokory
Znacznie lepiej zrozumiałem znaczenie tych kryteriów dzięki trudnej życiowej lekcji. Wraz z moimi współpracownikami chcieliśmy sprawdzić, czy jedna z funkcji wszczepianego urządzenia kardiologicznego przynosi pacjentom korzyści, zapobiegając rozwojowi groźnego zaburzenia rytmu serca – migotania przedsionków. Analizując retrospektywnie bazę danych obejmującą ponad 37 000 pacjentów, zaobserwowaliśmy 54-procentowe zmniejszenie ryzyka wystąpienia migotania przedsionków, gdy funkcja ta była włączona4. W naszym artykule otwarcie wskazaliśmy główne ograniczenie badania – ponieważ było to retrospektywne badanie obserwacyjne, pacjenci nie zostali losowo przydzielani do grup z włączoną lub wyłączoną funkcją i nie dało się ustalić, dlaczego u jednych funkcja jest aktywna, a u innych nie. Lekarze mogli po prostu włączać ją u pacjentów, którzy i tak mieli już wyjściowo niższe ryzyko rozwoju migotania przedsionków. Ponieważ nasze badanie nie zostało zaprojektowane jako prospektywne, nie mogliśmy wykluczyć tego potencjalnego czynnika zakłócającego, znanego jako błąd selekcji. Ponadto, jako pracownik firmy produkującej to urządzenie, siłą rzeczy nie byłem w pełni obiektywny (z uwagi na konflikt interesów), a w naszym badaniu przyjęliśmy założenie, że błąd selekcji nie miał istotnego znaczenia. W świetle tych sześciu kryteriów nasze badanie nie wypadło najlepiej.
Niestety, nasze wnioski nie znalazły potwierdzenia w późniejszym, prospektywnym, randomizowanym badaniu klinicznym z grupą kontrolną5. Mimo że nasze badanie obejmowało próbę dziesięciokrotnie większą, to właśnie losowy przydział i prospektywny charakter wyeliminowały błąd selekcji i zapewniły wyższy poziom wiarygodności. Zgodziłby się z tym każdy lekarz.
Standaryzowane poziomy świadectw
Właściwa priorytetyzacja świadectw jest podstawowym elementem epistemologii, dlatego inne dziedziny nauki powinny brać przykład ze środowiska medycznego i wypracować wspólne, ujednolicone standardy oceny wiarygodności danych.
Kolejny artykuł z tej serii będzie dotyczył powyższych kryteriów, pozwalających ocenić świadectwa, które najczęściej przywołuje się na poparcie teorii ewolucji.
Rob Stadler
Oryginał: When Can I Trust What Scientists Say?, „Science & Culture Today” 2026, February 2 [dostęp: 10 IV 2026].
Przekład z języka angielskiego: Adam Bechyne
Źródło zdjęcia: Pixabay
Ostatnia aktualizacja strony: 10.4.2026
Przypisy
- Evidence-based medicine (EBM) – tłumaczona najczęściej jako „medycyna oparta na faktach” lub „medycyna oparta na dowodach naukowych”. Jest to koncepcja podejmowania decyzji medycznych, która zakłada integrację indywidualnego doświadczenia klinicznego lekarza z najlepszymi dostępnymi dowodami pochodzącymi z rygorystycznych badań naukowych (np. metaanaliz czy randomizowanych badań klinicznych), przy jednoczesnym poszanowaniu wartości i oczekiwań pacjenta (przyp. tłum.).
- Por. P.B. Burns et al., The Levels of Evidence and Their Role in Evidence-Based Medicine, „Plastic and Reconstructive Surgery” 2011, Vol. 128, No. 1, s. 305–310, https://doi.org/10.1097/PRS.0b013e318219c171.
- Por. R. Stadler, The Scientific Approach to Evolution: What They Didn’t Teach You in Biology, CreateSpace Independent Publishing Platform, California 2016; R. Stadler, J. Tour, Evolution vs. Evidence: Are We Really 98% Chimp?, „YouTube” 2025, March 24 [dostęp: 1 III 2026].
- Por. J.C. Hsu et al., Adaptive Cardiac Resynchronization Therapy Is Associated With Decreased Risk of Incident Atrial Fibrillation Compared to Standard Biventricular Pacing: A Real-world Analysis of 37,450 Patients Followed by Remote Monitoring, „Heart Rhythm” 2019, Vol. 16, No. 7, s. 983–989, https://doi.org/10.1016/j.hrthm.2019.05.012.
- Por. B.L.Wilkoff et al., Adaptive Versus Conventional Cardiac Resynchronisation Therapy in Patients With Heart Failure (AdaptResponse): A Global, Prospective, Randomised Controlled Trial, „Lancet” 2023, Vol. 402, No. 10408, s. 1147–1157, https://doi.org/10.1016/S0140-6736(23)00912-1.
Literatura:
1. Burns P.B. et al., The Levels of Evidence and Their Role in Evidence-Based Medicine, „Plastic and Reconstructive Surgery” 2011, Vol. 128, No. 1, s. 305–310, https://doi.org/10.1097/PRS.0b013e318219c171.
2. Hsu J.C. et al., Adaptive Cardiac Resynchronization Therapy Is Associated With Decreased Risk of Incident Atrial Fibrillation Compared to Standard Biventricular Pacing: A Real-world Analysis of 37,450 Patients Followed by Remote Monitoring, „Heart Rhythm” 2019, Vol. 16, No. 7, s. 983–989, https://doi.org/10.1016/j.hrthm.2019.05.012.
3. Stadler R., The Scientific Approach to Evolution: What They Didn’t Teach You in Biology, CreateSpace Independent Publishing Platform, California 2016.
4. Stadler R., Tour J., Evolution vs. Evidence: Are We Really 98% Chimp?, „YouTube” 2025, March 24 [dostęp: 1 III 2026].
5. Wilkoff B.L. et al., Adaptive Versus Conventional Cardiac Resynchronisation Therapy in Patients With Heart Failure (AdaptResponse): A Global, Prospective, Randomised Controlled Trial, „Lancet” 2023, Vol. 402, No. 10408, s. 1147–1157, https://doi.org/10.1016/S0140-6736(23)00912-1.
