Es wird eine endliche oder unendliche Objektmenge X betrachtet.
Jedes Objekt in X gehört zu genau einer von zwei disjunkten Klassen.
Jede Teilmenge von X wird als eine Hypothese bezeichnet.
Damit gibt es 2|X| extensionsverschiedene Hypothesen.
Eine Hypothesenmenge HM ist eine Teilmenge aller Hypothesen über X.
Die Elemente einer bestimmten Hypothese Hz, der sogenannten
Zielhypothese werden positiv
und die übrigen Elemente in Xnegativ klassifiziert.
Als Erfahrungsdaten werden dem Lernenden mit einer Kennzeichnung
versehene Objekte aus X präsentiert. Die Kennzeichnung zeigt an,
ob das Objekt positiv oder negativ zu klassifizieren ist.
Es wird angenommen, daß die Zielhypothese in der betrachteten
Hypothesenmenge enthalten ist.
Die Lernaufgabe sei für jedes Objekt in X die zugehörige Klasse richtig zu bestimmen.
Damit besteht die Lernaufgabe darin, für jedes Objekt
in X zu bestimmen, ob es ein Element der anfänglich unbekannten
Zielhypothese ist.
Für jede formale Lerntheorie L gibt es dabei in folgendem Sinn genau eine Hypothesenmenge .
Valiant führte 1984 [Val84b,Val84a] den Begriff des
wahrscheinlichen annähernd korrekten Lernens (probably approximately correct learning) ein.
Dabei wird eine beliebige, unbekannte aber feste Wahrscheinlichkeitsverteilung
D über der Objektmenge X angenommen.
Jedes Objekt in X tritt mit einer festen aber unbekannten Wahrscheinlichkeit auf, die durch D bestimmt ist.
Während der Sammlung von Erfahrungsdaten für einen Induktionsschluß werden die Objekte aus X mit einer entsprechenden Klassifikation registriert.
Das Ziel eines Induktionsschlusses aus den gesammelten Erfahrungsdaten ist es dann,
möglichst alle
Objekte aus X richtig zu klassifizieren, die wiederum zufällig nach
der gleichen unbekannten Wahrscheinlichkeitsverteilung D auftreten.
Dabei ist allerdings - im Gegensatz zu der Situation vor dem Induktionsschluß -
keine Klassifizierung der Objekte mehr vorgegeben.
Das Ziel dabei ist es, die Wahrscheinlichkeit, daß ein zufällig nach D gewähltes
Objekt falsch klassifiziert wird, zu minimieren.
Die Wahrscheinlichkeit, daß der Induktionsschluß auf ein zufällig
nach D ausgewähltes Objekt nicht zutrifft, wird im folgenden auch
die Fehlklassifikationswahrscheinlichkeit des Induktionsschlusses genannt.
Weiterhin soll mit möglichst großer Wahrscheinlichkeit der
Induktionsschluß nur eine kleine
Fehlklassifikationswahrscheinlichkeit aufweisen.
die von L bestimmte Hypothese ein zufällig nach D ausgewähltes Objekt höchstens mit einer Wahrscheinlichkeit von fehlklassifiziert. Dieses Ereignis muß dabei mit einer (Konfidenz-) Wahrscheinlichkeit von mindestens auftreten.
Ohne Verlust der Allgemeinheit können noch die folgenden Vereinbarungen getroffen werden. Zunächst wird eine Repräsentation z(H) einer Hypothese H über X definiert.
Sei jedes Objekt in X durch eine binäre Zahl von 0 bis |X|-1 bezeichnet. Dann heißt die im folgenden beschriebene binäre Zeichenkette z(H) die binäre Darstellung von H. z(H) hat die Länge |X|. Zu jeder Position in z(H) korrespondiert ein entsprechend nummeriertes Objekt in X. Eine `1' an der Position für das Objekt bedeutet , während eine `0' anzeigt, daß .
Beispiel:
Sei X die Menge
und
,
wobei
und gelte.
Dann ist z(H1)=`100100011' und z(H2)=`101010011'.
Damit läßt sich von der
Kolmogoroffkomplexität K(z(H)) einer jeden Hypothese sprechen.
Es folgt die Definition eines Komplexitätsmasses
Kmax(HM) einer Hypothesenmenge HM, welches der
Komplexität der komplexesten Hypothese in HM enstpricht:
Hypothesenmengen, die komplexe Hypothesen enthalten
Wie weiter oben erwähnt, läßt sich jeder formalen Lerntheorie genau eine Menge von Hypothesen zuordnen. Im folgenden wird die Zahl der Hypothesen betrachtet, die in einer Hypothesenmenge notwendigerweise enthalten sein muß, wenn eine Lerntheorie in der Lage sein soll, auch komplexe Hypothesen zu lernen. Die Zahl der Hypothesen in HM ist interessant, da sie einen Indikator dafür ist, wieviele Erfahrungsdaten benötigt werden, um eine akzeptable Hypothese (geringe Fehlklassifikationswahrscheinlichkeit) aus HM zu bestimmen. Die Erfahrungsdaten dienen dabei dazu, Konkurrenzhypothesen auszuschließen, falls sie inkonsistent mit den Erfahrungsdaten sind.
Für
gibt es mindestens
Beweis siehe Hoffmann [Hof90a].