eigenlijk een vrij slimme en data-intensieve hallucinatie benchmark die ~overeenkomt met mijn intuïtie over relatieve capaciteiten