dinsdag 13 juli 2010

Kennisextractie uit een Nederlandse tekst

Mijn softwarebedrijf Sirius Computing werk nu aan een toepassing voor kennisextractie uit een Nederlandse tekst. De bedoeling is een kennisbank te kunnen genereren met informatie uit een Nederlandse tekst. Indien de tekst bijvoorbeeld een zin bevat als "Eerste Minister Yves Leterme is naar Congo vertrokken." dan zou de kennisbank volgende informatie bevatten: "Yves Leterme is Eerste Minister" en "Yves Leterme is naar Congo vertrokken". Dergelijke kennis kan in vele andere toepassingen worden benut, zoals het semantisch zoeken naar informatie, het genereren van een tekstsamenvatting, het taalonafhankelijk doorgeven van informatie, enz.
Om dergelijke kennisextractie te kunnen doen is uiteraard basiskennis (linguïstisch en encyclopedisch) nodig. Als eerste stap zullen we dan ook een semantische databank ontwikkelen, samen met een toepassing om deze algemene kennis te beheren.
Het semi-automatisch proces van kennisextractie uit een Nederlandse tekst zou dan uit drie deelprocessen bestaan:
1) analyse van de Nederlandse tekst met behulp van linguïstische en encyclopedische kennis uit een algemene kennisbank,
2) tekstspecifieke kennisextractie uit een Nederlandse tekst en
3) het bijwerken van de algemene kennisbank met de geëxtraheerde kennis uit de Nederlandse tekst.