dinsdag 30 november 2010

Nederlandse zinsontleding en syntaxisbomen

In een vorig blogbericht meldde ik dat mijn bedrijf Sirius Computing een grammatica voor het Nederlands heeft ontwikkeld. Op basis van deze formele Nederlandse grammatica ontwikkelen we nu een toepassing voor het syntactisch ontleden van Nederlandse zinnen en het opbouwen van syntaxisbomen. Deze syntaxisbomen zullen in een latere fase gebruikt worden om de betekenis uit een Nederlandse tekst te extraheren.


Tijdens de ontwikkeling van ons eerste prototype bleek wel reeds dat we bijkomende linguïstische informatie nodig hadden voor het correct ontleden van Nederlandse zinnen. Zo gebruiken we nu bijvoorbeeld het geslacht van Nederlandse woorden bij de opsplitsing tussen het persoonlijk voornaamwoord 'het' en het zelfstandig naamwoord 'vakantie' (zie de derde zin in bovenstaande figuur).


Voor een correcte zinsontleding van de 2de zin in de bovenste figuur moesten we ook opgeven dat het woord 'moeilijk' een mogelijk bijwoord is bij het werkwoord 'zijn'. Zoniet werd dit bijwoord als een bijvoeglijk naamwoord aanzien.