Disambiguierung ist in der Linguistik der Prozess der Bestimmung, welcher Sinn eines Wortes in einem bestimmten Kontext verwendet wird. Wird auch als lexikalische Begriffsklärung bezeichnet.
In der Computerlinguistik wird dieser Unterscheidungsprozess genannt Wortsinn-Disambiguierung (WSD).
"Es kommt also vor, dass unsere Kommunikation in verschiedenen Sprachen die Verwendung derselben Wortform ermöglicht, um verschiedene Dinge in einzelnen Kommunikationstransaktionen zu bedeuten. Die Folge ist, dass man in einer bestimmten Transaktion die beabsichtigte Bedeutung von a herausfinden muss gegebenes Wort unter seinen möglicherweise verbundenen Sinnen Mehrdeutigkeiten Entstehen solche vielfältigen Form-Bedeutungs-Assoziationen auf der lexikalischen Ebene, müssen sie häufig durch einen größeren Kontext aus dem das Wort einbettenden Diskurs aufgelöst werden. Daher ließen sich die verschiedenen Sinne des Wortes "Service" nur unterscheiden, wenn man über das Wort hinausblicken konnte, indem man "den Service des Spielers in Wimbledon" und "den Service des Kellners in Sheraton" gegenüberstellte. Dieser Prozess der Identifizierung von Wortbedeutungen in einem Diskurs ist allgemein bekannt als Wortsinn Begriffsklärung (WSD). "(Oi Yee Kwong, Neue Perspektiven für rechnergestützte und kognitive Strategien zur Begriffsklärung. Springer, 2013)
"Lexikalisch Begriffsklärung In seiner weitesten Definition ist nichts weniger als die Bestimmung der Bedeutung jedes Wortes im Kontext, was bei Menschen ein weitgehend unbewusster Vorgang zu sein scheint. Als ein Computerproblem wird es oft als "KI-vollständig" beschrieben, dh ein Problem, dessen Lösung eine Lösung zur Vervollständigung des Verständnisses der natürlichen Sprache oder des gesunden Menschenverstands voraussetzt (Ide und Véronis 1998)..
Auf dem Gebiet der Computerlinguistik wird das Problem allgemein als Wortsinn-Disambiguierung (WSD) bezeichnet und ist definiert als das Problem der rechnerischen Bestimmung, welcher 'Sinn' eines Wortes durch die Verwendung des Wortes in einem bestimmten Kontext aktiviert wird Im Wesentlichen eine Aufgabe der Klassifizierung: Wortsinne sind die Klassen, der Kontext liefert die Beweise, und jedes Vorkommen eines Wortes wird einer oder mehreren seiner möglichen Klassen basierend auf den Beweisen zugeordnet. Dies ist die traditionelle und übliche Charakterisierung von WSD, die es sieht Es stellt einen expliziten Prozess der Disambiguierung in Bezug auf einen festen Bestand an Wortsinnen dar. Es wird angenommen, dass Wörter einen endlichen und diskreten Satz von Sinnen aus einem Wörterbuch, einer lexikalischen Wissensbasis oder einer Ontologie haben (in letzterem Fall entsprechen die Sinne den Konzepten) dass ein Wort lexikalisiert.) Auch anwendungsspezifische Inventare können verwendet werden. Beispielsweise kann man in einer Einstellung für maschinelle Übersetzung (Machine Translation, MT) Wortübersetzungen als Wortsinne behandeln, ein Ansatz, der beo Aufgrund der Verfügbarkeit großer mehrsprachiger paralleler Korpora, die als Trainingsdaten dienen können, wird dies immer praktikabler. Das feste Inventar der traditionellen WSD reduziert die Komplexität des Problems, aber es gibt alternative Felder ... "(Eneko Agirre und Philip Edmonds," Introduction "). Word Sense Disambiguation: Algorithmen und Anwendungen. Springer, 2007)
"Lexikalisch Begriffsklärung eignet sich besonders für Fälle von Homonymie, zum Beispiel ein Auftreten von Bass muss auf einen der lexikalischen Basselemente abgebildet werden1 oder Bass2, abhängig von der beabsichtigten Bedeutung.
"Lexikalische Disambiguierung impliziert eine kognitive Entscheidung und ist eine Aufgabe, die Verständnisprozesse hemmt. Sie sollte von Prozessen unterschieden werden, die zu einer Differenzierung der Wortsinne führen. Die erstere Aufgabe wird auch ohne viel Kontextinformation ziemlich zuverlässig erfüllt, während die letztere nicht (vgl Veronis 1998, 2001). Es wurde auch gezeigt, dass gleichnamige Wörter, die eine Disambiguierung erfordern, den lexikalischen Zugriff verlangsamen, während polysemische Wörter, die eine Vielzahl von Wortsinnen aktivieren, den lexikalischen Zugriff beschleunigen (Rodd ea 2002)..
"Sowohl die produktive Änderung semantischer Werte als auch die einfache Wahl zwischen lexikalisch unterschiedlichen Elementen haben jedoch gemeinsam, dass sie zusätzliche nicht-lexikalische Informationen erfordern." (Peter Bosch, "Produktivität, Polysemie und Indexikalität von Prädikaten." Logik, Sprache und Berechnung: 6. Internationales Tiflis-Symposium für Logik, Sprache und Berechnung, ed. von Balder D. ten Cate und Henk W. Zeevat. Springer, 2007)
"Corley und Crocker (2000) präsentieren ein umfassendes Modell der lexikalischen Kategorie Begriffsklärung basierend auf Prinzip der Wahrscheinlichkeit. Insbesondere schlagen sie das für einen Satz vor, der aus Wörtern besteht w0… Wn, Der Satzprozessor übernimmt die wahrscheinlichste Wortfolge t0… Tn. Insbesondere nutzt ihr Modell zwei einfache Wahrscheinlichkeiten: (ich) die bedingte Wahrscheinlichkeit des Wortes wich einen bestimmten Teil der Rede gegeben tich, und (ii) die Wahrscheinlichkeit von tich gegeben den vorherigen Teil der Rede ti-1. Wenn jedes Wort des Satzes angetroffen wird, weist das System ihm diesen Wortbestandteil zu tich, Dies maximiert das Produkt dieser beiden Wahrscheinlichkeiten. Dieses Modell basiert auf der Erkenntnis, dass viele syntaktische Ambiguitäten eine lexikalische Grundlage haben (MacDonald et al., 1994), wie in (3):
(3) Die Lagerpreise / Marken sind günstiger als die übrigen.
"Diese Sätze sind vorübergehend mehrdeutig zwischen einer Lesung, in der Preise oder macht ist das Hauptverb oder ein Teil eines zusammengesetzten Substantivs. Nachdem das Modell auf einem großen Korpus trainiert wurde, sagt es den wahrscheinlichsten Teil der Sprache für voraus Preise, richtig berücksichtigen, dass die Menschen verstehen Preis als Nomen aber macht als Verb (siehe Crocker & Corley, 2002, und darin zitierte Referenzen). Das Modell berücksichtigt nicht nur eine Reihe von Disambiguierungspräferenzen, die auf lexikalischen Mehrdeutigkeiten beruhen, sondern erklärt auch, warum Menschen solche Mehrdeutigkeiten im Allgemeinen sehr genau auflösen. "(Matthew W. Crocker," Rational Models of Comprehension: Addressing the Leistungsparadoxon. " Psycholinguistik des 21. Jahrhunderts: Vier Eckpfeiler, ed. von Anne Cutler. Lawrence Erlbaum, 2005)