vrijdag 10 september 2010

Kennisextractie uit een Nederlandse tekst 3

De ontwikkeling van een kennisextractietoepassing uit Nederlandse tekst door Sirius Computing verloopt als gepland. Een eerste stap in het kennisextractieproces is om onbekende lemma's te identificeren en deze met de juiste grammaticale categorie toe te voegen aan de termbank. De identificatie van de mogelijke lemma's verloopt automatisch zodra de tekst in het linkertekstvak wordt geplakt. In het rechtertekstvak verschijnen de voorgestelde wijzigingen aan de termbank. Deze lijst van voorgestelde wijzigingen kan door de gebruiker worden gecorrigeerd. Door vervolgens op de knop Effectueer te klikken, worden de voorgestelde wijzigingen doorgevoerd en wordt de tekst opnieuw geanalyseerd.


Onbekende woorden kunnen ook manueel worden toegevoegd. Per grammaticale categorie verschijnt een aangepast dialoogvenster waarmee het juiste lemma kan worden toegevoegd. Via het menu-item 'Voeg werkwoord toe...' onder de rechtermuisknop kan bijvoorbeeld een ontbrekend werkwoord worden toegevoegd. Na het invullen van de hoofding worden de mogelijke vervoegingen voorgesteld na een druk op de knop '?'. De gebruiker kan vervolgens de voorgestelde vervoegingen controleren en bevestigen door op de knop 'Bewaar & sluit' te klikken.


In een volgende versie willen we ook ontbrekende grammaticale patronen (sequenties van grammaticale categorieën voor een Nederlandse zin) semi-automatisch laten herkennen en toevoegen. Hiervoor moeten we waarschijnlijk een model voor Nederlandse zinsontleding bouwen. Meer hierover in een volgend blogbericht...