Living Words

dinsdag 24 mei 2011

Corpus met geannoteerde Engelse zinnen

Ik heb net 598 Engelse voorbeeldzinnen uit het handboek 'Snel en vlot grammatica Engels' geannoteerd. De bedoeling is om met dergelijk XML-corpus van geannoteerde zinnen de grammaticacontrole in onze taalsoftware te verbeteren. Een XML gebaseerd corpus van geannoteerde Engelse en Nederlandse zinnen zal het makkelijker maken om nieuwe grammaticaregels in onze taalsoftware in te bouwen en onze vertaalsoftware te verbeteren.

De bedoeling is om nu dezelfde oefening te herhalen voor de Nederlandse grammatica. Op deze manier wil ik ook vaststellen of een gemeenschappelijk annotatieschema voor zowel de Engelse als de Nederlandse grammaticaregels mogelijk is.

maandag 21 maart 2011

Objectgeoriënteerd datamodel voor Nederlandse zinsbouw

Sirius Computing ontwikkelt momenteel een objectgeoriënteerd datamodel voor Nederlandse zinsbouw. Met dit objectgeoriënteerd datamodel willen we de Nederlandse grammatica in onze softwaremodules makkelijker kunnen beheersen. Dit objectgeoriënteerd datamodel zal onder meer voor grammaticacontrole en dialoogsystemen kunnen worden gebruikt. Tot dusver hebben we een objectgeoriënteerd datamodel voor een enkelvoudige zin ontwikkeld. Met dit datamodel kunnen we bijvoorbeeld Nederlandse hoofdzinnen samenstellen op basis van de verschillende zinsdelen: onderwerp, hulpwerkwoorden, hoofdwerkwoord, complement, voorzetselvoorwerp, lijdend voorwerp, meewerkend voorwerp en bepalingen van tijd, manier en plaats.

maandag 28 februari 2011

Nederlandse zinsontleding en syntaxisbomen 2

De ontwikkeling van onze toepassing voor Nederlandstalige zinsontleding gaat de goede richting uit. Op basis van voorbeelden uit verschillende grammaticahandboeken testen we momenteel de ontleding van Nederlandse zinnen.
Volgende schermafbeelding toont bijvoorbeeld hoe de toepassing reeds rekening houdt met complexe regels als bijzinnen en voegwoorden.

De bestaande parser voor het Nederlands (Alpino) van de universiteit Groningen blijkt een goede referentie voor het controleren van onze resultaten.
Enkele collega's vroegen zich zelfs af of we niet beter deze bestaande oplossing integreren in onze toepassing. Dit is uiteraard een mogelijkheid, maar aangezien we de regels voor zinsontleding zo toegankelijk mogelijk proberen te maken en ook de betekenis van woorden willen afleiden is onze ontologiegebaseerde methode waarschijnlijk een betere oplossing. De volgende stap is bijvoorbeeld het correct benoemen van de zinsdelen. Om te kunnen herkennen of een woordgroep een tijd, manier of plaats aanduidt, is de betekenis van de woorden immers van belang.

dinsdag 30 november 2010

Nederlandse zinsontleding en syntaxisbomen

In een vorig blogbericht meldde ik dat mijn bedrijf Sirius Computing een grammatica voor het Nederlands heeft ontwikkeld. Op basis van deze formele Nederlandse grammatica ontwikkelen we nu een toepassing voor het syntactisch ontleden van Nederlandse zinnen en het opbouwen van syntaxisbomen. Deze syntaxisbomen zullen in een latere fase gebruikt worden om de betekenis uit een Nederlandse tekst te extraheren.

Tijdens de ontwikkeling van ons eerste prototype bleek wel reeds dat we bijkomende linguïstische informatie nodig hadden voor het correct ontleden van Nederlandse zinnen. Zo gebruiken we nu bijvoorbeeld het geslacht van Nederlandse woorden bij de opsplitsing tussen het persoonlijk voornaamwoord 'het' en het zelfstandig naamwoord 'vakantie' (zie de derde zin in bovenstaande figuur).

Voor een correcte zinsontleding van de 2de zin in de bovenste figuur moesten we ook opgeven dat het woord 'moeilijk' een mogelijk bijwoord is bij het werkwoord 'zijn'. Zoniet werd dit bijwoord als een bijvoeglijk naamwoord aanzien.

maandag 4 oktober 2010

Implementatie van een Nederlandse grammatica

Mijn bedrijf Sirius Computing ontwikkelt momenteel een toepassing voor kennisextractie uit Nederlandse tekst. Om dit kennisextractieproces mogelijk te maken hebben we net een Nederlandse grammatica geïmplementeerd. De grammatica is voornamelijk gebaseerd op de Nederlandse woordvolgorde zoals beschreven op de website Dutchgrammar.com voor NT2-studenten. Op dit moment is de grammatica niet compleet maar de grammatica kan via onze crowdsourcingapplicatie makkelijk worden uitgebreid. Indien nodig kunnen we voor de verdere uitbreiding van de grammatica ook gebruik maken van de website van de elektronische Algemene Nederlandse Spraakkunst.

Gebruikmakend van de grammatica kunnen we een Nederlandse zin reeds opsplitsen in naamwoordgroep, voorzetsel+naamwoordgroep en werkwoordgroep. Op basis van deze opsplitsing willen we de belangrijkste zinsdelen (onderwerp, lijdend voorwerp, meewerkend voorwerp en werkwoordelijke constituent) uit een Nederlandse zin extraheren. Deze zinsdelen kunnen we dan gebruiken als grammaticale controle van de basiszin.

vrijdag 10 september 2010

Kennisextractie uit een Nederlandse tekst 3

De ontwikkeling van een kennisextractietoepassing uit Nederlandse tekst door Sirius Computing verloopt als gepland. Een eerste stap in het kennisextractieproces is om onbekende lemma's te identificeren en deze met de juiste grammaticale categorie toe te voegen aan de termbank. De identificatie van de mogelijke lemma's verloopt automatisch zodra de tekst in het linkertekstvak wordt geplakt. In het rechtertekstvak verschijnen de voorgestelde wijzigingen aan de termbank. Deze lijst van voorgestelde wijzigingen kan door de gebruiker worden gecorrigeerd. Door vervolgens op de knop Effectueer te klikken, worden de voorgestelde wijzigingen doorgevoerd en wordt de tekst opnieuw geanalyseerd.

Onbekende woorden kunnen ook manueel worden toegevoegd. Per grammaticale categorie verschijnt een aangepast dialoogvenster waarmee het juiste lemma kan worden toegevoegd. Via het menu-item 'Voeg werkwoord toe...' onder de rechtermuisknop kan bijvoorbeeld een ontbrekend werkwoord worden toegevoegd. Na het invullen van de hoofding worden de mogelijke vervoegingen voorgesteld na een druk op de knop '?'. De gebruiker kan vervolgens de voorgestelde vervoegingen controleren en bevestigen door op de knop 'Bewaar & sluit' te klikken.

In een volgende versie willen we ook ontbrekende grammaticale patronen (sequenties van grammaticale categorieën voor een Nederlandse zin) semi-automatisch laten herkennen en toevoegen. Hiervoor moeten we waarschijnlijk een model voor Nederlandse zinsontleding bouwen. Meer hierover in een volgend blogbericht...

vrijdag 20 augustus 2010

Kennisextractie uit een Nederlandse tekst 2

Na de ontwikkeling van een semantische databankeditor voor het taalonafhankelijk beheren van (encyclopedische) kennis, heeft mijn softwarebedrijf Sirius Computing de ontwikkeling van een kennisextractor uit Nederlandse tekst aangevat. Een eerste prototype kan reeds naamwoordgroepen uit een Nederlandse tekst extraheren. Naamwoordgroepen zijn frasen waarvan de kern een naamwoord is. Belangrijke zinsdelen - zoals onderwerp, lijdend voorwerp en meewerkend voorwerp - bestaan uit naamwoordgroepen.
De bedoeling is om ook verbale constituenten en voorzetselconstituenten uit de tekst te extraheren en op basis daarvan relaties tussen de verschillende naamwoordgroepen te vinden. Deze tekstspecifieke kennis kan dan in een latere stap semi-automatisch worden gegeneraliseerd in een algemene kennisbank.

Sirius Computing specialiseert zich in crowdsourcingapplicaties d.w.z. applicaties die de gebruikers mee kunnen verbeteren. Vandaar dat we de gebruikers de mogelijkheid bieden om de grammaticale patronen voor de herkenning van naamwoordgroepen mee te beheren. Via de optie 'Voeg naamwoordgroep toe' uit het rechtermuismenu is het bijvoorbeeld mogelijk om een geselecteerde frase als naamwoordgroep aan te duiden. Frasen die voldoen aan dit grammaticale patroon worden dan na een druk op de knop Extraheer eveneens als naamwoordgroep herkend.
Via de tab Kennisbeheer.Naamwoordgroepen kunnen alle naamwoordgroepen eveneens worden beheerd.