Posts tonen met het label extractie. Alle posts tonen
Posts tonen met het label extractie. Alle posts tonen

maandag 4 oktober 2010

Implementatie van een Nederlandse grammatica

Mijn bedrijf Sirius Computing ontwikkelt momenteel een toepassing voor kennisextractie uit Nederlandse tekst. Om dit kennisextractieproces mogelijk te maken hebben we net een Nederlandse grammatica geïmplementeerd. De grammatica is voornamelijk gebaseerd op de Nederlandse woordvolgorde zoals beschreven op de website Dutchgrammar.com voor NT2-studenten. Op dit moment is de grammatica niet compleet maar de grammatica kan via onze crowdsourcingapplicatie makkelijk worden uitgebreid. Indien nodig kunnen we voor de verdere uitbreiding van de grammatica ook gebruik maken van de website van de elektronische Algemene Nederlandse Spraakkunst.

Gebruikmakend van de grammatica kunnen we een Nederlandse zin reeds opsplitsen in naamwoordgroep, voorzetsel+naamwoordgroep en werkwoordgroep. Op basis van deze opsplitsing willen we de belangrijkste zinsdelen (onderwerp, lijdend voorwerp, meewerkend voorwerp en werkwoordelijke constituent) uit een Nederlandse zin extraheren. Deze zinsdelen kunnen we dan gebruiken als grammaticale controle van de basiszin.

dinsdag 13 juli 2010

Kennisextractie uit een Nederlandse tekst

Mijn softwarebedrijf Sirius Computing werk nu aan een toepassing voor kennisextractie uit een Nederlandse tekst. De bedoeling is een kennisbank te kunnen genereren met informatie uit een Nederlandse tekst. Indien de tekst bijvoorbeeld een zin bevat als "Eerste Minister Yves Leterme is naar Congo vertrokken." dan zou de kennisbank volgende informatie bevatten: "Yves Leterme is Eerste Minister" en "Yves Leterme is naar Congo vertrokken". Dergelijke kennis kan in vele andere toepassingen worden benut, zoals het semantisch zoeken naar informatie, het genereren van een tekstsamenvatting, het taalonafhankelijk doorgeven van informatie, enz.
Om dergelijke kennisextractie te kunnen doen is uiteraard basiskennis (linguïstisch en encyclopedisch) nodig. Als eerste stap zullen we dan ook een semantische databank ontwikkelen, samen met een toepassing om deze algemene kennis te beheren.
Het semi-automatisch proces van kennisextractie uit een Nederlandse tekst zou dan uit drie deelprocessen bestaan:
1) analyse van de Nederlandse tekst met behulp van linguïstische en encyclopedische kennis uit een algemene kennisbank,
2) tekstspecifieke kennisextractie uit een Nederlandse tekst en
3) het bijwerken van de algemene kennisbank met de geëxtraheerde kennis uit de Nederlandse tekst.