Posts tonen met het label toepassing. Alle posts tonen
Posts tonen met het label toepassing. Alle posts tonen

dinsdag 30 november 2010

Nederlandse zinsontleding en syntaxisbomen

In een vorig blogbericht meldde ik dat mijn bedrijf Sirius Computing een grammatica voor het Nederlands heeft ontwikkeld. Op basis van deze formele Nederlandse grammatica ontwikkelen we nu een toepassing voor het syntactisch ontleden van Nederlandse zinnen en het opbouwen van syntaxisbomen. Deze syntaxisbomen zullen in een latere fase gebruikt worden om de betekenis uit een Nederlandse tekst te extraheren.


Tijdens de ontwikkeling van ons eerste prototype bleek wel reeds dat we bijkomende linguïstische informatie nodig hadden voor het correct ontleden van Nederlandse zinnen. Zo gebruiken we nu bijvoorbeeld het geslacht van Nederlandse woorden bij de opsplitsing tussen het persoonlijk voornaamwoord 'het' en het zelfstandig naamwoord 'vakantie' (zie de derde zin in bovenstaande figuur).


Voor een correcte zinsontleding van de 2de zin in de bovenste figuur moesten we ook opgeven dat het woord 'moeilijk' een mogelijk bijwoord is bij het werkwoord 'zijn'. Zoniet werd dit bijwoord als een bijvoeglijk naamwoord aanzien.

maandag 4 oktober 2010

Implementatie van een Nederlandse grammatica

Mijn bedrijf Sirius Computing ontwikkelt momenteel een toepassing voor kennisextractie uit Nederlandse tekst. Om dit kennisextractieproces mogelijk te maken hebben we net een Nederlandse grammatica geïmplementeerd. De grammatica is voornamelijk gebaseerd op de Nederlandse woordvolgorde zoals beschreven op de website Dutchgrammar.com voor NT2-studenten. Op dit moment is de grammatica niet compleet maar de grammatica kan via onze crowdsourcingapplicatie makkelijk worden uitgebreid. Indien nodig kunnen we voor de verdere uitbreiding van de grammatica ook gebruik maken van de website van de elektronische Algemene Nederlandse Spraakkunst.

Gebruikmakend van de grammatica kunnen we een Nederlandse zin reeds opsplitsen in naamwoordgroep, voorzetsel+naamwoordgroep en werkwoordgroep. Op basis van deze opsplitsing willen we de belangrijkste zinsdelen (onderwerp, lijdend voorwerp, meewerkend voorwerp en werkwoordelijke constituent) uit een Nederlandse zin extraheren. Deze zinsdelen kunnen we dan gebruiken als grammaticale controle van de basiszin.

vrijdag 10 september 2010

Kennisextractie uit een Nederlandse tekst 3

De ontwikkeling van een kennisextractietoepassing uit Nederlandse tekst door Sirius Computing verloopt als gepland. Een eerste stap in het kennisextractieproces is om onbekende lemma's te identificeren en deze met de juiste grammaticale categorie toe te voegen aan de termbank. De identificatie van de mogelijke lemma's verloopt automatisch zodra de tekst in het linkertekstvak wordt geplakt. In het rechtertekstvak verschijnen de voorgestelde wijzigingen aan de termbank. Deze lijst van voorgestelde wijzigingen kan door de gebruiker worden gecorrigeerd. Door vervolgens op de knop Effectueer te klikken, worden de voorgestelde wijzigingen doorgevoerd en wordt de tekst opnieuw geanalyseerd.


Onbekende woorden kunnen ook manueel worden toegevoegd. Per grammaticale categorie verschijnt een aangepast dialoogvenster waarmee het juiste lemma kan worden toegevoegd. Via het menu-item 'Voeg werkwoord toe...' onder de rechtermuisknop kan bijvoorbeeld een ontbrekend werkwoord worden toegevoegd. Na het invullen van de hoofding worden de mogelijke vervoegingen voorgesteld na een druk op de knop '?'. De gebruiker kan vervolgens de voorgestelde vervoegingen controleren en bevestigen door op de knop 'Bewaar & sluit' te klikken.


In een volgende versie willen we ook ontbrekende grammaticale patronen (sequenties van grammaticale categorieën voor een Nederlandse zin) semi-automatisch laten herkennen en toevoegen. Hiervoor moeten we waarschijnlijk een model voor Nederlandse zinsontleding bouwen. Meer hierover in een volgend blogbericht...

woensdag 30 juni 2010

Nederlands vertaalprogramma 3

Het Sirius Nederlands vertaalprogramma houdt nu ook rekening met grammaticale verschillen tussen brontaal en doeltaal. Bovendien kan er nu ook op het niveau van de frase (meerwoordsuitdrukking) worden vertaald.


Na op de knop Vertaal te klikken verschijnt ter rechterzijde de vertaalde tekst. Op basis van deze voorgestelde vertaling kan het vertaalgeheugen worden verbeterd via het rechtermuismenu.


1. De optie 'Bewerk grammaticaal patroon' laat toe om de woordvolgorde van de vertaalde zin te wijzigen. Deze volgorde geldt op het niveau van de grammaticale categorieën zodat soortgelijke zinnen op dezelfde wijze worden vertaald.
2. De optie 'Bewerk frase' laat toe om één of meerdere frasen in de zin aan te duiden en hiervoor een correcte vertaling op te geven.
3. De optie 'Voeg werkwoord toe' maakt het mogelijk om de onregelmatige vervoeging van een werkwoord op te geven.

Het beheer van de tweetalige fraseologie, de grammaticale patronen, en de terminologie is ook mogelijk via de tab Geheugen.

De tab Geheugen.Frasen laat toe om de tweetalige fraseologie te beheren.


De tab Geheugen.'Grammaticale patronen' laat toe om de grammaticale patronen te beheren.


De tab Geheugen.Termen laat toe om de tweetalige terminologie te beheren.