dinsdag 14 juni 2011

Corpus met geannoteerde Nederlandse zinnen

Ik heb net 951 Nederlandse voorbeeldzinnen geannoteerd. De voorbeeldzinnen zijn afkomstig uit het handboek 'Grammatica Nederlands' en van de website Dutch Grammar. De bedoeling is om met dergelijk XML-corpus van geannoteerde zinnen de grammaticacontrole in onze taalsoftware te verbeteren.

De gebruikte annotaties zijn grotendeels dezelfde als voor het Engels. De voornaamste verschillen zijn het gebruik van bijwoorden als scheidbaar deel van werkwoorden en de ehb-tag (er, hier, daar).

dinsdag 24 mei 2011

Corpus met geannoteerde Engelse zinnen

Ik heb net 598 Engelse voorbeeldzinnen uit het handboek 'Snel en vlot grammatica Engels' geannoteerd. De bedoeling is om met dergelijk XML-corpus van geannoteerde zinnen de grammaticacontrole in onze taalsoftware te verbeteren. Een XML gebaseerd corpus van geannoteerde Engelse en Nederlandse zinnen zal het makkelijker maken om nieuwe grammaticaregels in onze taalsoftware in te bouwen en onze vertaalsoftware te verbeteren.

De bedoeling is om nu dezelfde oefening te herhalen voor de Nederlandse grammatica. Op deze manier wil ik ook vaststellen of een gemeenschappelijk annotatieschema voor zowel de Engelse als de Nederlandse grammaticaregels mogelijk is.

maandag 21 maart 2011

Objectgeoriënteerd datamodel voor Nederlandse zinsbouw

Sirius Computing ontwikkelt momenteel een objectgeoriënteerd datamodel voor Nederlandse zinsbouw. Met dit objectgeoriënteerd datamodel willen we de Nederlandse grammatica in onze softwaremodules makkelijker kunnen beheersen. Dit objectgeoriënteerd datamodel zal onder meer voor grammaticacontrole en dialoogsystemen kunnen worden gebruikt. Tot dusver hebben we een objectgeoriënteerd datamodel voor een enkelvoudige zin ontwikkeld. Met dit datamodel kunnen we bijvoorbeeld Nederlandse hoofdzinnen samenstellen op basis van de verschillende zinsdelen: onderwerp, hulpwerkwoorden, hoofdwerkwoord, complement, voorzetselvoorwerp, lijdend voorwerp, meewerkend voorwerp en bepalingen van tijd, manier en plaats.

maandag 28 februari 2011

Nederlandse zinsontleding en syntaxisbomen 2

De ontwikkeling van onze toepassing voor Nederlandstalige zinsontleding gaat de goede richting uit. Op basis van voorbeelden uit verschillende grammaticahandboeken testen we momenteel de ontleding van Nederlandse zinnen.
Volgende schermafbeelding toont bijvoorbeeld hoe de toepassing reeds rekening houdt met complexe regels als bijzinnen en voegwoorden.


De bestaande parser voor het Nederlands (Alpino) van de universiteit Groningen blijkt een goede referentie voor het controleren van onze resultaten.
Enkele collega's vroegen zich zelfs af of we niet beter deze bestaande oplossing integreren in onze toepassing. Dit is uiteraard een mogelijkheid, maar aangezien we de regels voor zinsontleding zo toegankelijk mogelijk proberen te maken en ook de betekenis van woorden willen afleiden is onze ontologiegebaseerde methode waarschijnlijk een betere oplossing. De volgende stap is bijvoorbeeld het correct benoemen van de zinsdelen. Om te kunnen herkennen of een woordgroep een tijd, manier of plaats aanduidt, is de betekenis van de woorden immers van belang.