woensdag 30 juni 2010

Nederlands vertaalprogramma 3

Het Sirius Nederlands vertaalprogramma houdt nu ook rekening met grammaticale verschillen tussen brontaal en doeltaal. Bovendien kan er nu ook op het niveau van de frase (meerwoordsuitdrukking) worden vertaald.


Na op de knop Vertaal te klikken verschijnt ter rechterzijde de vertaalde tekst. Op basis van deze voorgestelde vertaling kan het vertaalgeheugen worden verbeterd via het rechtermuismenu.


1. De optie 'Bewerk grammaticaal patroon' laat toe om de woordvolgorde van de vertaalde zin te wijzigen. Deze volgorde geldt op het niveau van de grammaticale categorieën zodat soortgelijke zinnen op dezelfde wijze worden vertaald.
2. De optie 'Bewerk frase' laat toe om één of meerdere frasen in de zin aan te duiden en hiervoor een correcte vertaling op te geven.
3. De optie 'Voeg werkwoord toe' maakt het mogelijk om de onregelmatige vervoeging van een werkwoord op te geven.

Het beheer van de tweetalige fraseologie, de grammaticale patronen, en de terminologie is ook mogelijk via de tab Geheugen.

De tab Geheugen.Frasen laat toe om de tweetalige fraseologie te beheren.


De tab Geheugen.'Grammaticale patronen' laat toe om de grammaticale patronen te beheren.


De tab Geheugen.Termen laat toe om de tweetalige terminologie te beheren.

maandag 12 april 2010

Nederlands vertaalprogramma 2

Op dit moment hebben we de eerste fase van ons Nederlands vertaalprogramma afgerond.
Via onze eigen service is het nu mogelijk om een Nederlandse tekst op woordniveau te vertalen. Bij het vertalen van een woord waarvoor nog geen vertaalequivalent gekend is vraagt de toepassing om input van de gebruiker. Op deze wijze kan de meertalige terminologische databank snel worden uitgebreid.

Het vertaalgeheugen kan ook worden bijgewerkt via een apart tabblad.

De volgende fase in de ontwikkeling van het Nederlands vertaalprogramma is om ook op het niveau van de frase en de zin een vertaalequivalent voor te stellen. Bijvoorbeeld wanneer de woordvolgorde verschilt tussen brontaal en doeltaal.

dinsdag 23 maart 2010

Nederlands vertaalprogramma

We zijn gestart met de ontwikkeling van een uitbreidbare en multifunctionele toepassing die helpt bij het redigeren, reviseren en vertalen van een Nederlandse tekst. De toepassing biedt net als het Nederlands tekstopmaakprogramma uitgebreide ondersteuning tijdens het redigeren van een Nederlandse tekst. De nieuwe toepassing biedt gebruikers bovendien de mogelijkheid om verschillende services te gebruiken voor het vertalen van een Nederlandse tekst. In het voorbeeld werd de 'Google Translation service' gebruikt om een Nederlandse tekst te vertalen.
Door het gebruik van linguïstische kennis en meertalige terminologie willen we de vertaalresultaten verbeteren. De linguïstische kennis en meertalige terminologie zal door de gebruikers uitgebreid en verbeterd kunnen worden. Aangezien de linguïstische kennis en terminologie doeltaal afhankelijk is zullen we ons eerst op Nederlands en Engels richten. Later kunnen andere doeltalen worden voorzien, al dan niet door derden.
We willen ook een platform opzetten waarbij geregistreerde vertalers de resultaten (tegen vergoeding) kunnen reviseren.

vrijdag 19 maart 2010

Nederlands tekstopmaakprogramma

Ondertussen werd het Nederlands tekstopmaakprogramma (Sirius Dutch Text Editor) afgewerkt. Deze toepassing biedt hulp bij het schrijven en semantisch annoteren van een Nederlandse tekst. Woorden die niet worden herkend worden ofwel rood onderlijnd, ofwel onderlijnd in oranje indien ze beginnen met een hoofdletter. De hoofdletter duidt er mogelijk op dat het om een eigennaam gaat.
Net als bij het interactief woordenboek (Sirius interactief Nederlands taalhulpmiddel) is het makkelijk om nieuwe woorden toe te voegen.
Het tekstopmaakprogramma maakt gebruik van de grammaticale context van woorden om de betekenis van woorden zo precies mogelijk te herkennen. Woorden die binnen de gegeven context toch nog meerdere betekenissen hebben worden blauw onderlijnd.


In de figuur is bestuurder blauw onderlijnd omdat er twee mogelijke betekenissen (1. bestuurder van een voertuig of 2. persoon die leiding geeft) zijn.
Op basis van grammaticale patronen controleert de toepassing ook de zinsbouw. De naam van de auteur wordt geel onderlijnd omdat het grammaticaal patroon niet als een correcte zin wordt herkend. Net als lemma's en betekenissen kunnen grammaticale patronen makkelijk worden toegevoegd en verwijderd.
In de toepassing staat rood voor het lexicale aspect (lemma), blauw staat voor het semantische aspect (betekenis) en geel staat voor de grammaticale context (grammaticale categorie).
Combinaties van deze kleuren zijn ook mogelijk. Het woord 'nieuwe' uit de titel is groen onderlijnd omdat de toepassing niet kon afleiden of het om een bijwoord of om een bijvoeglijk naamwoord gaat. Het woord 'maakt' op de vierde regel werd paars onderlijnd omdat het lemma en dus ook de betekenis onduidelijk is. Maakt kan hier immers van de werkwoorden 'bekendmaken' of 'maken' komen.
Meer informatie over de toepassing vind je op onze bedrijfswebsite.

maandag 25 januari 2010

Sirius Dutch Text Editor 2

I made some progress in developing the software tool. First I parsed Wiktionary information to extend the dictionary information (of the Dutch Text Interpretation Aid) with lexical categories. These lexical categories will be used to verify the grammar of sentences. Because words may refer to multiple meanings (that may belong to different lexical categories), the user should first specify the proper meaning of each word. For this purpose, ambiguous and not yet specified words are underlined in blue. While the mouse pointer hovers over such underlined word a popup menu appears that allows to select the proper meaning. Once all words of a sentence have a proper meaning attached to them, it may be that the grammar of the sentence is incorrect or unknown by the tool. Such incorrect sentence will be underlined green.
I still have to develop an easy way to add valid syntactic patterns and improve the analysis of the text.
It is already possible to save and load the semantically enriched text in HTML-format. I should however further improve the functionality (with JavaScript) so that the published texts may still be understood easily.

maandag 18 januari 2010

Sirius Dutch Text Editor

The new software tool I am working on is a Dutch Text Editor. The software tool will support the writing of Dutch texts. While writing a text, the tool will not only highlight spelling and grammar mistakes, but will also indicate ambiguous and/or difficult words. Where possible the tool will offer the user a list of synonyms to replace difficult words. The user may also specify the meaning of ambiguous words by choosing the proper definition. This semantic information will be saved together with the text so that it is easier for readers (humans or machines) to interpret the semantically enriched text.
So far, I developed a tokenizer and sentence splitter for Dutch.
As you can see in the figure, the sentence splitter distinguishes between a point for the digit group separator and for a full stop. The tokenizer also replaces abbreviations like "zo'n" with the full form "zo een". This should facilitate the work of the parser that still needs to be developed.

maandag 4 januari 2010

My Own Company

Happy New Year! Since 2010-01-01, I have my own company (Sirius Computing). Via the company I wish to develop and distribute useful software tools for natural language processing.
The first product available is the Dutch Text Interpretation Aid. Hopefully a lot of people decide to use and buy the software tool. The profits may then be used to develop other software tools and information resources.