Montag, 4. Januar 2016
Texte in Großaufnahme
jochen.heller, 02:03h
Sehr anregend ist es, mit dem Konzept der Morphe und Morpheme in Berührung zu kommen. (Zunehmend denke ich übrigens, dass meine Spekulationen zu Chomsky und vermeintlichen Gegenkonzepten Unsinn sind.)
Ein Morph ist, soweit ich es bis jetzt verstanden zu haben glaube, die kleinste Einheit einer wahrnehmbaren, also geschriebenen oder gesprochenen Wortstruktur, dem potentiell eine Bedeutung zukommt.
Ein Morph wird als Morphem klassifiziert, indem ihm eine Bedeutung als Bestandteil einer Wortstruktur zugeschrieben wird. So gibt es etwa Stammmorpheme, die womöglich mit dem Grundmorphem, der Wurzel eines Wortes, womöglich auch als freies Morphem identisch sind, Diese bilden komplexere Worte mit bestimmten gebundenen Morphemen, den Affixen, die mindestens am Anfang oder am Ende eines Stamms angefügt werden und z.B. grammatische Bedeutung tragen, wie {erste Person Präsens} oder {Plural}.
Ein Affix mit der Bedeutung {Plural} kann im Deutschen etwa eine Menge von Endungen sein wie {-er}, {-e}, {-en}, {-s} und {-n}. Letztere repräsentieren als Morphe jeweils eine Ausprägung des genannten Morphems.
Gut soweit (vorerst,,, Verständnisschwierigkeiten im Hinterkopf). Will ich der Übung halber händisch einen Text bis zu diesem Grad beginnen, morphologisch zu analysieren, so merke ich schnell, dass das in der Tat aus dem Stehgreif gar nicht so einfach ist.
"Im Anfang schuf Gott die Himmel und die Erde."
{im} {An-}(?) {fang}(?) {schuf} {Gott} {die} {Him-}(?) {-mel}(?) {und} {die} {er-}(?) {-de}(?)
Die Fragezeichen ergeben sich zunächst aus der Versuchung, Silben als Morphe anzunehmen, die zum jeweiligen Morphem führen. Intuitiv würde ich nicht auf die Idee kommen, Aber alleine schon Instanzen von Morphemen, die wie {-en} für {Plural} stehen leiten dazu an, mehr als nur die offensichtlich ins Auge springende bedeutungstragende Einheit, den Wortstamm, der zumeist ein lexikalisches Morphem sein dürfte, zu beachten, sondern gerade im Hinblick auf grammatische Morpheme gerade auf Affixe und vielleicht sogar auf unikale Morpheme, die etwa wie {Brom-} in Brombeere oder {Schorn-} in Schornstein für sich genommen kein eigenständiges Wort bilden.
Es kommt wohl maßgeblich darauf an, ob sich die vermuteten elementaren Einheiten auch in anderen Wörtern in gleicher Funktion wiederfinden. So finde ich {fang} in ganz vielen Wörtern. Umfang, Windfang, fangen. Und {an-} ist unzweifelhaft ein häufig anzutreffender Affix. Aber kann das wirklich sein? Haben Umfang und Anfang auf dieser Bedeutungsebene wirklich etwas gemeinsames? Und könnte {Him-} womöglich unikal sein? Es gibt diverse Worte, Nomen sogar, die auf {-mel} enden: Schemel, Eumel, Hummel. Kann das sein, dass Himmel tatsächlich noch einmal zerfällt in zwei Morpheme? Und welche, dann ja wohl grammatische Bedeutung trägt {-mel}? - Dabei fällt mir auf: Müsste ich nicht hinter {schuf} auch ein Fragezeichen setzen. Ich habe hier doch eine Flexionsform, oder?
Und währenddessen lese ich mal wieder den Text und staune mal wieder über die Präzision der zutreffenden Schilderung und denke erneut wieder wie dumm Menschen sind, die entweder glauben, Gott habe in sechs Tagen die Welt erschaffen oder die glauben, in der Unwahrscheinlichkeit, dass die Welt in sechs Erdentagen erschaffen worden sei die Bedeutungslosigkeit des Textes zu erfassen, und dabei blind sind für den Inhalt der ihnen vor der Nase steht und zeigt, dass vor erstaunlich langer Zeit (vor der Blüte der griechischen Philosophie etwa) eine erstaunlich zutreffende Schilderung schriftlich fixiert worden ist, die aus noch weiter davor liegender mündlicher Überleferung stammen dürfte. Das lenkt dann zusätzlich ab. Aber ich denke fast, das sind die typischen Anfangsschwierigkeiten. Es wird spannend zu erfahren, wie die Suche zu automatisieren ist.
Ein Morph ist, soweit ich es bis jetzt verstanden zu haben glaube, die kleinste Einheit einer wahrnehmbaren, also geschriebenen oder gesprochenen Wortstruktur, dem potentiell eine Bedeutung zukommt.
Ein Morph wird als Morphem klassifiziert, indem ihm eine Bedeutung als Bestandteil einer Wortstruktur zugeschrieben wird. So gibt es etwa Stammmorpheme, die womöglich mit dem Grundmorphem, der Wurzel eines Wortes, womöglich auch als freies Morphem identisch sind, Diese bilden komplexere Worte mit bestimmten gebundenen Morphemen, den Affixen, die mindestens am Anfang oder am Ende eines Stamms angefügt werden und z.B. grammatische Bedeutung tragen, wie {erste Person Präsens} oder {Plural}.
Ein Affix mit der Bedeutung {Plural} kann im Deutschen etwa eine Menge von Endungen sein wie {-er}, {-e}, {-en}, {-s} und {-n}. Letztere repräsentieren als Morphe jeweils eine Ausprägung des genannten Morphems.
Gut soweit (vorerst,,, Verständnisschwierigkeiten im Hinterkopf). Will ich der Übung halber händisch einen Text bis zu diesem Grad beginnen, morphologisch zu analysieren, so merke ich schnell, dass das in der Tat aus dem Stehgreif gar nicht so einfach ist.
"Im Anfang schuf Gott die Himmel und die Erde."
{im} {An-}(?) {fang}(?) {schuf} {Gott} {die} {Him-}(?) {-mel}(?) {und} {die} {er-}(?) {-de}(?)
Die Fragezeichen ergeben sich zunächst aus der Versuchung, Silben als Morphe anzunehmen, die zum jeweiligen Morphem führen. Intuitiv würde ich nicht auf die Idee kommen, Aber alleine schon Instanzen von Morphemen, die wie {-en} für {Plural} stehen leiten dazu an, mehr als nur die offensichtlich ins Auge springende bedeutungstragende Einheit, den Wortstamm, der zumeist ein lexikalisches Morphem sein dürfte, zu beachten, sondern gerade im Hinblick auf grammatische Morpheme gerade auf Affixe und vielleicht sogar auf unikale Morpheme, die etwa wie {Brom-} in Brombeere oder {Schorn-} in Schornstein für sich genommen kein eigenständiges Wort bilden.
Es kommt wohl maßgeblich darauf an, ob sich die vermuteten elementaren Einheiten auch in anderen Wörtern in gleicher Funktion wiederfinden. So finde ich {fang} in ganz vielen Wörtern. Umfang, Windfang, fangen. Und {an-} ist unzweifelhaft ein häufig anzutreffender Affix. Aber kann das wirklich sein? Haben Umfang und Anfang auf dieser Bedeutungsebene wirklich etwas gemeinsames? Und könnte {Him-} womöglich unikal sein? Es gibt diverse Worte, Nomen sogar, die auf {-mel} enden: Schemel, Eumel, Hummel. Kann das sein, dass Himmel tatsächlich noch einmal zerfällt in zwei Morpheme? Und welche, dann ja wohl grammatische Bedeutung trägt {-mel}? - Dabei fällt mir auf: Müsste ich nicht hinter {schuf} auch ein Fragezeichen setzen. Ich habe hier doch eine Flexionsform, oder?
Und währenddessen lese ich mal wieder den Text und staune mal wieder über die Präzision der zutreffenden Schilderung und denke erneut wieder wie dumm Menschen sind, die entweder glauben, Gott habe in sechs Tagen die Welt erschaffen oder die glauben, in der Unwahrscheinlichkeit, dass die Welt in sechs Erdentagen erschaffen worden sei die Bedeutungslosigkeit des Textes zu erfassen, und dabei blind sind für den Inhalt der ihnen vor der Nase steht und zeigt, dass vor erstaunlich langer Zeit (vor der Blüte der griechischen Philosophie etwa) eine erstaunlich zutreffende Schilderung schriftlich fixiert worden ist, die aus noch weiter davor liegender mündlicher Überleferung stammen dürfte. Das lenkt dann zusätzlich ab. Aber ich denke fast, das sind die typischen Anfangsschwierigkeiten. Es wird spannend zu erfahren, wie die Suche zu automatisieren ist.
... link (0 Kommentare) ... comment
Dienstag, 29. Dezember 2015
Andererseits
jochen.heller, 23:45h
Weitere Ansätze mag ich allerdings auch nicht aus den Augen verlieren. Ich frage mich, ob Satz-Funktionen und Beschreibungen auch in Betracht gezogen werden können. Nur weil Russell davon Anfang des 20. Jahrhunderts geschrieben hat und Nachfolger seinen Analysen nicht viel abgewinnen konnten muss das m.E. nicht heißen, dass an seinen Konzepten nichts mehr dran sei.
Vielleicht wird zuviel weggeschnitten und natürlich können schnell Wiener Kreise daraus gezogen werden. Trotzdem, es mag mir nicht so recht gefallen, solche Ansätze, in denen es auch darum geht, sprachliche Konstrukte zu sezieren, um den reinen Informationsgehalt zu gewinnen, einfach deshalb ad acta zu legen, weil sie alt sind und von anderen verworfen.
Vielleicht ist das ja auch gar nicht so und in der Computerlinguistik stoße ich ganz selbstverständlich auf ihn. Denn wer, wenn nicht ein Computer müsste mathematische Herangehensweisen an Sprache zu schätzen wissen.
Kurz gefasst, vielleicht ist's auch gleichgültig was mit Chomsky ist, weil ich diesen Ansatz später vielleicht auch gar nicht mehr verfolge. Aber im Moment habe ich zumindest das Gefühl, dass ich diese linguistischen Ansätze nicht vernachlässigen darf.
Vielleicht wird zuviel weggeschnitten und natürlich können schnell Wiener Kreise daraus gezogen werden. Trotzdem, es mag mir nicht so recht gefallen, solche Ansätze, in denen es auch darum geht, sprachliche Konstrukte zu sezieren, um den reinen Informationsgehalt zu gewinnen, einfach deshalb ad acta zu legen, weil sie alt sind und von anderen verworfen.
Vielleicht ist das ja auch gar nicht so und in der Computerlinguistik stoße ich ganz selbstverständlich auf ihn. Denn wer, wenn nicht ein Computer müsste mathematische Herangehensweisen an Sprache zu schätzen wissen.
Kurz gefasst, vielleicht ist's auch gleichgültig was mit Chomsky ist, weil ich diesen Ansatz später vielleicht auch gar nicht mehr verfolge. Aber im Moment habe ich zumindest das Gefühl, dass ich diese linguistischen Ansätze nicht vernachlässigen darf.
... link (0 Kommentare) ... comment
Dienstag, 29. Dezember 2015
Wenn Chomsky recht haben sollte, macht das einen Unterschied?
jochen.heller, 00:54h
Ein bisschen Furore macht seit dem Tag seiner Veröffentlichung dieser Artikel.
Früher oder später werde ich ihn mir besorgen müssen (30 € ist ganz schön viel und dann habe ich keine Kreditkarte ... na, mal sehen). Aber schon vorher kann ich mich fragen, ob sich die mögliche Bestätigung Chomskys so auswirkt, dass andere Thesen damit hinfällig werden für Analyseverfahren von Texten. - Natürlich kann auch für letzteres immer noch weder das eine noch das andere am Ende relevant sein.
Mir geht es ja darum, Texte auf einen bestimmten Gehalt hin zu analysieren. Dazu frage ich mich, ob die Zerlegung des Textmaterials in seine Einzelbestandteile sinnvoll ist? Und wenn ich es in seine Einzelbestandteile zerlege, wie finde ich diese? Sind es statistisch erfassbare kollokative Muster oder sind es auf neurologischer Basis ermittelbare grammatische Grundstrukturen?
Und dabei lässt sich dann immer noch die Frage stellen: Wem will ich eigentlich semantisches Sprachverständnis einflößen: einem Menschen oder einer Maschine? Denn ich glaube, letztlich geht es genau darum bei diesen Theorien - um den Spracherwerb. Wie lerne ich sprechen? Durch Erlernen von Wortbedeutungen und Grammatikregeln oder durch Erlernen von Wortbedeutungen und Einüben üblicher Wortkombinationen? Oder durch beides, auf verschiedenen Stufen der sich steigernden Sprachkompetenz?
Ich stelle mir im Moment vor, dass mein Programm in der Lage sein wird, bestimmte Strukturen aufzuspüren, die ich auf Grundlage einer noch zu entwickelnden Theorie als Kernbestandteile einer bestimmten Aussageart identifiziere, um auf relevante Sätze zunächst zu stoßen und sie genauer zu analysieren und per XML auszuzeichnen, um in einem weiteren Schritt die semantische Seite zu betrachten.
Möglicherweise hat das alles gar nichts mit Chomsky, Montague, Saussure, Firth oder Sinclair, MIT oder Birmingham oder was auch immer zu tun. Bestimmt bleibt es jedoch unabhängig davon, ob im menschlichen Denken das stattfindet, was Chomsky in den 1950er-Jahren beschrieben hat, oder nicht, gleichgültig ob ich aus seiner These Anregungen für meine Ideen ableiten kann. Denn ich will auf meine Art am Computer verstehendes Lesen simulieren.
Aber ich werde nicht umhin können, mich auch mit diesem Aspekt auseinanderzusetzen, der da von der Max-Planck-Gesellschaft so vollmundig als neue Wahrheit vorgestellt wird.
Früher oder später werde ich ihn mir besorgen müssen (30 € ist ganz schön viel und dann habe ich keine Kreditkarte ... na, mal sehen). Aber schon vorher kann ich mich fragen, ob sich die mögliche Bestätigung Chomskys so auswirkt, dass andere Thesen damit hinfällig werden für Analyseverfahren von Texten. - Natürlich kann auch für letzteres immer noch weder das eine noch das andere am Ende relevant sein.
Mir geht es ja darum, Texte auf einen bestimmten Gehalt hin zu analysieren. Dazu frage ich mich, ob die Zerlegung des Textmaterials in seine Einzelbestandteile sinnvoll ist? Und wenn ich es in seine Einzelbestandteile zerlege, wie finde ich diese? Sind es statistisch erfassbare kollokative Muster oder sind es auf neurologischer Basis ermittelbare grammatische Grundstrukturen?
Und dabei lässt sich dann immer noch die Frage stellen: Wem will ich eigentlich semantisches Sprachverständnis einflößen: einem Menschen oder einer Maschine? Denn ich glaube, letztlich geht es genau darum bei diesen Theorien - um den Spracherwerb. Wie lerne ich sprechen? Durch Erlernen von Wortbedeutungen und Grammatikregeln oder durch Erlernen von Wortbedeutungen und Einüben üblicher Wortkombinationen? Oder durch beides, auf verschiedenen Stufen der sich steigernden Sprachkompetenz?
Ich stelle mir im Moment vor, dass mein Programm in der Lage sein wird, bestimmte Strukturen aufzuspüren, die ich auf Grundlage einer noch zu entwickelnden Theorie als Kernbestandteile einer bestimmten Aussageart identifiziere, um auf relevante Sätze zunächst zu stoßen und sie genauer zu analysieren und per XML auszuzeichnen, um in einem weiteren Schritt die semantische Seite zu betrachten.
Möglicherweise hat das alles gar nichts mit Chomsky, Montague, Saussure, Firth oder Sinclair, MIT oder Birmingham oder was auch immer zu tun. Bestimmt bleibt es jedoch unabhängig davon, ob im menschlichen Denken das stattfindet, was Chomsky in den 1950er-Jahren beschrieben hat, oder nicht, gleichgültig ob ich aus seiner These Anregungen für meine Ideen ableiten kann. Denn ich will auf meine Art am Computer verstehendes Lesen simulieren.
Aber ich werde nicht umhin können, mich auch mit diesem Aspekt auseinanderzusetzen, der da von der Max-Planck-Gesellschaft so vollmundig als neue Wahrheit vorgestellt wird.
... link (0 Kommentare) ... comment
... older stories