Posts tonen met het label tekst. Alle posts tonen
Posts tonen met het label tekst. Alle posts tonen

maandag 4 oktober 2010

Implementatie van een Nederlandse grammatica

Mijn bedrijf Sirius Computing ontwikkelt momenteel een toepassing voor kennisextractie uit Nederlandse tekst. Om dit kennisextractieproces mogelijk te maken hebben we net een Nederlandse grammatica geïmplementeerd. De grammatica is voornamelijk gebaseerd op de Nederlandse woordvolgorde zoals beschreven op de website Dutchgrammar.com voor NT2-studenten. Op dit moment is de grammatica niet compleet maar de grammatica kan via onze crowdsourcingapplicatie makkelijk worden uitgebreid. Indien nodig kunnen we voor de verdere uitbreiding van de grammatica ook gebruik maken van de website van de elektronische Algemene Nederlandse Spraakkunst.

Gebruikmakend van de grammatica kunnen we een Nederlandse zin reeds opsplitsen in naamwoordgroep, voorzetsel+naamwoordgroep en werkwoordgroep. Op basis van deze opsplitsing willen we de belangrijkste zinsdelen (onderwerp, lijdend voorwerp, meewerkend voorwerp en werkwoordelijke constituent) uit een Nederlandse zin extraheren. Deze zinsdelen kunnen we dan gebruiken als grammaticale controle van de basiszin.

vrijdag 10 september 2010

Kennisextractie uit een Nederlandse tekst 3

De ontwikkeling van een kennisextractietoepassing uit Nederlandse tekst door Sirius Computing verloopt als gepland. Een eerste stap in het kennisextractieproces is om onbekende lemma's te identificeren en deze met de juiste grammaticale categorie toe te voegen aan de termbank. De identificatie van de mogelijke lemma's verloopt automatisch zodra de tekst in het linkertekstvak wordt geplakt. In het rechtertekstvak verschijnen de voorgestelde wijzigingen aan de termbank. Deze lijst van voorgestelde wijzigingen kan door de gebruiker worden gecorrigeerd. Door vervolgens op de knop Effectueer te klikken, worden de voorgestelde wijzigingen doorgevoerd en wordt de tekst opnieuw geanalyseerd.


Onbekende woorden kunnen ook manueel worden toegevoegd. Per grammaticale categorie verschijnt een aangepast dialoogvenster waarmee het juiste lemma kan worden toegevoegd. Via het menu-item 'Voeg werkwoord toe...' onder de rechtermuisknop kan bijvoorbeeld een ontbrekend werkwoord worden toegevoegd. Na het invullen van de hoofding worden de mogelijke vervoegingen voorgesteld na een druk op de knop '?'. De gebruiker kan vervolgens de voorgestelde vervoegingen controleren en bevestigen door op de knop 'Bewaar & sluit' te klikken.


In een volgende versie willen we ook ontbrekende grammaticale patronen (sequenties van grammaticale categorieën voor een Nederlandse zin) semi-automatisch laten herkennen en toevoegen. Hiervoor moeten we waarschijnlijk een model voor Nederlandse zinsontleding bouwen. Meer hierover in een volgend blogbericht...

vrijdag 20 augustus 2010

Kennisextractie uit een Nederlandse tekst 2

Na de ontwikkeling van een semantische databankeditor voor het taalonafhankelijk beheren van (encyclopedische) kennis, heeft mijn softwarebedrijf Sirius Computing de ontwikkeling van een kennisextractor uit Nederlandse tekst aangevat. Een eerste prototype kan reeds naamwoordgroepen uit een Nederlandse tekst extraheren. Naamwoordgroepen zijn frasen waarvan de kern een naamwoord is. Belangrijke zinsdelen - zoals onderwerp, lijdend voorwerp en meewerkend voorwerp - bestaan uit naamwoordgroepen.
De bedoeling is om ook verbale constituenten en voorzetselconstituenten uit de tekst te extraheren en op basis daarvan relaties tussen de verschillende naamwoordgroepen te vinden. Deze tekstspecifieke kennis kan dan in een latere stap semi-automatisch worden gegeneraliseerd in een algemene kennisbank.


Sirius Computing specialiseert zich in crowdsourcingapplicaties d.w.z. applicaties die de gebruikers mee kunnen verbeteren. Vandaar dat we de gebruikers de mogelijkheid bieden om de grammaticale patronen voor de herkenning van naamwoordgroepen mee te beheren. Via de optie 'Voeg naamwoordgroep toe' uit het rechtermuismenu is het bijvoorbeeld mogelijk om een geselecteerde frase als naamwoordgroep aan te duiden. Frasen die voldoen aan dit grammaticale patroon worden dan na een druk op de knop Extraheer eveneens als naamwoordgroep herkend.
Via de tab Kennisbeheer.Naamwoordgroepen kunnen alle naamwoordgroepen eveneens worden beheerd.

dinsdag 13 juli 2010

Kennisextractie uit een Nederlandse tekst

Mijn softwarebedrijf Sirius Computing werk nu aan een toepassing voor kennisextractie uit een Nederlandse tekst. De bedoeling is een kennisbank te kunnen genereren met informatie uit een Nederlandse tekst. Indien de tekst bijvoorbeeld een zin bevat als "Eerste Minister Yves Leterme is naar Congo vertrokken." dan zou de kennisbank volgende informatie bevatten: "Yves Leterme is Eerste Minister" en "Yves Leterme is naar Congo vertrokken". Dergelijke kennis kan in vele andere toepassingen worden benut, zoals het semantisch zoeken naar informatie, het genereren van een tekstsamenvatting, het taalonafhankelijk doorgeven van informatie, enz.
Om dergelijke kennisextractie te kunnen doen is uiteraard basiskennis (linguïstisch en encyclopedisch) nodig. Als eerste stap zullen we dan ook een semantische databank ontwikkelen, samen met een toepassing om deze algemene kennis te beheren.
Het semi-automatisch proces van kennisextractie uit een Nederlandse tekst zou dan uit drie deelprocessen bestaan:
1) analyse van de Nederlandse tekst met behulp van linguïstische en encyclopedische kennis uit een algemene kennisbank,
2) tekstspecifieke kennisextractie uit een Nederlandse tekst en
3) het bijwerken van de algemene kennisbank met de geëxtraheerde kennis uit de Nederlandse tekst.