Hoi allemaal,
Mochten jullie interesse hebben in het sorteren van Nederlandse woorden voor een woordenboek of -lijst, denk eens mee voor https://github.com/OpenTaal/alphabetical-sort/blob/master/README.md
Groetjes,
Pander
Hmmm, ik neem aan dat dit probleem minstens zo oud is als de oudste tekstverwerker dus valt hier nog eer aan te behalen? Ik heb de site even bekeken - sorteer je "van Rooijen" bij de "R" (correct in NL) of the "V"? Zijn daar nog regionale verschillen in tussen Nederlands en Vlaams? Je schrijft dat het algorithme geen onderscheid maakt tussen "woorden" en "afkortingen". In het geval dat je een lijst hebt als deze: "Aap AAp aap aAP b.v. bv B.V. BV" hoe zou de gesorteerde lijst er uitzien? Groeten,Wilfred
On Friday, May 1, 2015 7:42 PM, Pander pander@users.sourceforge.net wrote:
Hoi allemaal,
Mochten jullie interesse hebben in het sorteren van Nederlandse woorden voor een woordenboek of -lijst, denk eens mee voor https://github.com/OpenTaal/alphabetical-sort/blob/master/README.md
Groetjes,
Pander _______________________________________________ TeX-NL mailing list TeX-NL@ntg.nl http://www.ntg.nl/cgi-bin/mailman/listinfo/tex-nl
On 05/02/2015 03:32 AM, Wilfred van Rooijen wrote:
Hmmm, ik neem aan dat dit probleem minstens zo oud is als de oudste tekstverwerker dus valt hier nog eer aan te behalen?
De community van Stichting OpenTaal is er mee aan de slag gegaan en het heeft veel inzichten geven.
Ik heb de site even bekeken - sorteer je "van Rooijen" bij de "R" (correct in NL) of the "V"? Zijn daar nog regionale verschillen in tussen Nederlands en Vlaams?
Eigennamen komen in de lijst van de Taalunie die te doorzoeken is op http://woordenlijst.org niet voor. OpenTaal heeft die wel een aantal, met name toponiemen zoals: Nauw van Calais Unie van de Comoren huis van Oranje-Nassau hertog van Alva Vlakte van Jizreël Landengte van Panama Grote Van Dale Van Ewijcksluis
1) Hoe ziet iedereen dit het liefst in een woordenboek, encyclopedie of woordenlijst?
2) Als iemand daar een algoritme voor heeft liggen kan ik dat testen tegen de uitgebreide lijst die wel hebben.
Je schrijft dat het algorithme geen
onderscheid maakt tussen "woorden" en "afkortingen".
Klopt. Dat komt omdat bij het sorteren van de lijst niet bekent is hoe de uitspraak is. Bijvoorbeeld aub en a.u.b. zouden vooraan bij de A moeten komen en havo gewoon in de lijst. Daar was (geautomatiseerd) geen beginnen aan. Die informatie is soms bekend maar niet volledig en uiteindelijk is de trend vooral om op schrijfwijze te sorteren.
In het geval dat je
een lijst hebt als deze: "Aap AAp aap aAP b.v. bv B.V. BV" hoe zou de gesorteerde lijst er uitzien?
Daar zijn we bijna tot de conclusie gekomen dat de sort die de locale gebruikt dit zeer netjes doet. Soms heb ik bepaalde kleine requirements te laten vallen omdat je bij de standaard de sortering van de locale blijft. Wel vervelend is dat veel programmeertalen er een heel eigen sortering op nahouden.
Groeten,
Pander
Groeten, Wilfred
On Friday, May 1, 2015 7:42 PM, Pander pander@users.sourceforge.net wrote:
Hoi allemaal, Mochten jullie interesse hebben in het sorteren van Nederlandse woorden voor een woordenboek of -lijst, denk eens mee voor https://github.com/OpenTaal/alphabetical-sort/blob/master/README.md Groetjes, Pander _______________________________________________ TeX-NL mailing list TeX-NL@ntg.nl <mailto:TeX-NL@ntg.nl> http://www.ntg.nl/cgi-bin/mailman/listinfo/tex-nl
TeX-NL mailing list TeX-NL@ntg.nl http://www.ntg.nl/cgi-bin/mailman/listinfo/tex-nl
Ik ben nog niet overtuigd. Zoals een aantal van je eerdere "projecten" heeft het (weer) een hoog "ik heb iets geknutseld en nu moeten jullie er mee aan de slag"-gehalte. Tenzij ik het volkomen verkeerd begrijp en dan hoor ik dat graag.
De community van Stichting OpenTaal is er mee aan de slag gegaan en het heeft veel inzichten geven.
Wat voor inzichten dan?
- Hoe ziet iedereen dit het liefst in een woordenboek, encyclopedie of
woordenlijst?
- Als iemand daar een algoritme voor heeft liggen kan ik dat testen
tegen de uitgebreide lijst die wel hebben.
Ik zou zeggen dat je eerst definieert hoe je dit wil indexeren voordat je gaat programmeren. Als je mijn mening wil weten: lekker belangrijk. Het gaat er om dat je iets kan vinden, dus als "Nauw van Calais" bij de "C" of de "N" te vinden is, is het wat mij betreft prima. En ik kan me bijna niet voorstellen dat hier niet al een (de facto) standaardregel voor is.
Klopt. Dat komt omdat bij het sorteren van de lijst niet bekent is hoe de uitspraak is. Bijvoorbeeld aub en a.u.b. zouden vooraan bij de A moeten komen en havo gewoon in de lijst. Daar was (geautomatiseerd) > geen beginnen aan. Die informatie is soms bekend maar niet volledig en uiteindelijk is de trend vooral om op schrijfwijze te sorteren.
"het is niet mogelijk in een geautomatiseerd systeem" is altijd een zwaktebod - je past het systeem maar aan aan de werkelijkheid en niet andersom :-))
Daar zijn we bijna tot de conclusie gekomen dat de sort die de locale gebruikt dit zeer netjes doet. Soms heb ik bepaalde kleine requirements te laten vallen omdat je bij de standaard de sortering van de locale blijft. Wel vervelend is dat veel programmeertalen er een heel eigen sortering op nahouden.
En om de chaos te completeren verzinnen jullie er niet iets anders bij ;-)) Groeten,Wilfred
On Monday, May 4, 2015 6:11 PM, Pander pander@users.sourceforge.net wrote:
Ik heb de site even bekeken - sorteer je "van Rooijen" bij de "R" (correct in NL) of the "V"? Zijn daar nog regionale verschillen in tussen Nederlands en Vlaams?
Eigennamen komen in de lijst van de Taalunie die te doorzoeken is op http://woordenlijst.org niet voor. OpenTaal heeft die wel een aantal, met name toponiemen zoals: Nauw van Calais Unie van de Comoren huis van Oranje-Nassau hertog van Alva Vlakte van Jizreël Landengte van Panama Grote Van Dale Van Ewijcksluis
Je schrijft dat het algorithme geen
onderscheid maakt tussen "woorden" en "afkortingen".
In het geval dat je
een lijst hebt als deze: "Aap AAp aap aAP b.v. bv B.V. BV" hoe zou de gesorteerde lijst er uitzien?
Groeten,
Pander
Groeten, Wilfred
On Friday, May 1, 2015 7:42 PM, Pander pander@users.sourceforge.net wrote:
Hoi allemaal,
Mochten jullie interesse hebben in het sorteren van Nederlandse woorden voor een woordenboek of -lijst, denk eens mee voor https://github.com/OpenTaal/alphabetical-sort/blob/master/README.md
Groetjes,
Pander _______________________________________________ TeX-NL mailing list TeX-NL@ntg.nl mailto:TeX-NL@ntg.nl http://www.ntg.nl/cgi-bin/mailman/listinfo/tex-nl
TeX-NL mailing list TeX-NL@ntg.nl http://www.ntg.nl/cgi-bin/mailman/listinfo/tex-nl
On 05/04/2015 01:39 PM, Wilfred van Rooijen wrote:
Ik ben nog niet overtuigd. Zoals een aantal van je eerdere "projecten" heeft het (weer) een hoog "ik heb iets geknutseld en nu moeten jullie er mee aan de slag"-gehalte. Tenzij ik het volkomen verkeerd begrijp en dan hoor ik dat graag.
Beste Wilfred,
Dat heb je zeker verkeerd. Dit is een serieus project waarvan de uitkomst niet alleen door OpenTaal maar ook een aantal andere organisaties in Nederland en België die actief zijn Nederlandse woordenlijsten bezig zijn gebruikt gaat worden.
Bij veel projecten hebben mensen vaak een mening maar is het een uitdaging ze echt inhoudelijk te betrekken. Dit project heeft hier http://lists.sf.own-it.nl/pipermail/opentaal/2015-May/thread.html en buiten de mailinglijst veel al opbouwende discussie en positieve reacties losgemaakt.
De versie op GitHub wordt nadat al het commentaar is verwerkt refactored en is momenteel work in progress.
Van welke andere projecten heb je ook een dergelijke mening? Hopelijk kan ik die ook graag ontkrachten.
De community van Stichting OpenTaal is er mee aan de slag gegaan en het heeft veel inzichten geven.
Wat voor inzichten dan?
Dat sorteren voor woordenboeken, woordenlijsten en dergelijke niet triviaal is. Met name software zoals Perl, Python en Java zul je expliciet moeten instrueren om het volgens de juiste locale te doen.
De meeste westerse locales betreft sortering zijn gebaseerd op collocatie definities voor Latin-1.
- Hoe ziet iedereen dit het liefst in een woordenboek, encyclopedie of
woordenlijst?
- Als iemand daar een algoritme voor heeft liggen kan ik dat testen
tegen de uitgebreide lijst die wel hebben.
Ik zou zeggen dat je eerst definieert hoe je dit wil indexeren voordat je gaat programmeren. Als je mijn mening wil weten: lekker belangrijk. Het gaat er om dat je iets kan vinden, dus als "Nauw van Calais" bij de "C" of de "N" te vinden is, is het wat mij betreft prima. En ik kan me bijna niet voorstellen dat hier niet al een (de facto) standaardregel voor is.
Als uitgangspunt hebben we ook een lijst waarin de algemene eisen in voorbeelden zijn uitgeschreven.
Klopt. Dat komt omdat bij het sorteren van de lijst niet bekent is hoe de uitspraak is. Bijvoorbeeld aub en a.u.b. zouden vooraan bij de A moeten komen en havo gewoon in de lijst. Daar was (geautomatiseerd) geen beginnen aan. Die informatie is soms bekend maar niet volledig en uiteindelijk is de trend vooral om op schrijfwijze te sorteren.
"het is niet mogelijk in een geautomatiseerd systeem" is altijd een zwaktebod - je past het systeem maar aan aan de werkelijkheid en niet andersom :-))
Met meer achtergrond; die informatie die daarvoor nodig is, is niet uit de schrijfwijze van woord te halen maar is metadata die uit een andere collectie moet komen. De collecties waar ik toegang tot heb, en dat zijn zeer uitgebreide, zou je dan deels met het sorteeralgoritme mee moeten distribueren en dat maakt het lastig.
De gegevens die nodig zijn om uitzonderingen op afkortingen aan de hand van de uitspraak te maken, zijn niet in enkele regels code te vangen. Dus is het niet makkelijk mogelijk. Daarbij komt ook nog eens auteursrecht bij kijken als delen van die collecties (afgeleid) worden gebruikt.
Daar zijn we bijna tot de conclusie gekomen dat de sort die de locale gebruikt dit zeer netjes doet. Soms heb ik bepaalde kleine requirements te laten vallen omdat je bij de standaard de sortering van de locale blijft. Wel vervelend is dat veel programmeertalen er een heel eigen sortering op nahouden.
En om de chaos te completeren verzinnen jullie er niet iets anders bij ;-))
Dat hangt af van een paar zaken waar we met de default sortering niet geheel content zijn, namelijk: - namen zoals Nauw van Calais - Griekse letters zoals in λ-calculus - getallen zoals in 100 eurobiljet t.o.v. 10 eurobiljet
Verder is hier meer te lezen over regionale verschillen: https://nl.wikipedia.org/wiki/Tussenvoegsel Wat dit project op gaat leveren zal zowel in Vlaanderen als in Nederlands bruikbaar moeten zijn.
Meer informatie is te vinden op: http://taaladvies.net/taal/advies/tekst/87/literatuurlijsten_algemeen/#4
Het project is om te onderzoeken wat er allemaal bestaat, welke eisen en wensen er zijn, hoe die overeenkomen met de verschillende bestaande sorteringen, welke wensen we kunnen herformuleren of kunnen laten vallen om zo veel mogelijk op een bestaande oplossing uit te komen en *eventueel* goed bediscussieerd, goed onderbouwd en goed gedocumenteerd een uitbreiding aanbieden op wie daar behoefte aan heeft. Verder houden we ook de alfabetiseringsprincipes Nederlands aan zoals gebruikt wordt bij de grote woordenboekuitgeverijen.
Ik hoop dat ik op deze manier een deel van je zorgen weg heb kunnen halen.
Groeten,
Pander
Groeten, Wilfred
On Monday, May 4, 2015 6:11 PM, Pander pander@users.sourceforge.net wrote:
> Ik heb de site even bekeken - sorteer je "van Rooijen" bij de "R" > (correct in NL) of the "V"? Zijn daar nog regionale verschillen in > tussen Nederlands en Vlaams? Eigennamen komen in de lijst van de Taalunie die te doorzoeken is op http://woordenlijst.org <http://woordenlijst.org/>niet voor. OpenTaal heeft die wel een aantal, met name toponiemen zoals: Nauw van Calais Unie van de Comoren huis van Oranje-Nassau hertog van Alva Vlakte van Jizreël Landengte van Panama Grote Van Dale Van Ewijcksluis Je schrijft dat het algorithme geen > onderscheid maakt tussen "woorden" en "afkortingen". In het geval dat je > een lijst hebt als deze: "Aap AAp aap aAP b.v. bv B.V. BV" hoe zou de > gesorteerde lijst er uitzien? Groeten, Pander > > Groeten, > Wilfred > > > > On Friday, May 1, 2015 7:42 PM, Pander <pander@users.sourceforge.net <mailto:pander@users.sourceforge.net>> wrote: > > > > Hoi allemaal, > > Mochten jullie interesse hebben in het sorteren van Nederlandse woorden > voor een woordenboek of -lijst, denk eens mee voor > https://github.com/OpenTaal/alphabetical-sort/blob/master/README.md > > Groetjes, > > Pander > _______________________________________________ > TeX-NL mailing list > TeX-NL@ntg.nl <mailto:TeX-NL@ntg.nl> <mailto:TeX-NL@ntg.nl <mailto:TeX-NL@ntg.nl>> > http://www.ntg.nl/cgi-bin/mailman/listinfo/tex-nl > > > > > _______________________________________________ > TeX-NL mailing list > TeX-NL@ntg.nl <mailto:TeX-NL@ntg.nl> > http://www.ntg.nl/cgi-bin/mailman/listinfo/tex-nl >
Van welke andere projecten heb je ook een dergelijke mening? Hopelijk kan ik die ook graag ontkrachten.
(ik parafraseer een beetje :-)) )
20 december 2013: "ik heb iets met een dictee geknutseld, willen jullie het bekijken en naar CTAN uploaden?"
10 november 2014: "Ik heb iets met fonts gedaan willen jullie er naar kijken en uploaden naar CTAN?" Ik wil je natuurlijk niet in een slecht daglicht stellen maar dit soort emails wekt mijn wrevel op. Heb je iets te bieden, dan vind ik dat prima maar opmerkingen als "willen jullie er eens naar kijken" wekt de indruk van luiheid en ondeskundigheid.
Dat sorteren voor woordenboeken, woordenlijsten en dergelijke niet triviaal is. Met name software zoals Perl, Python en Java zul je expliciet moeten instrueren om het volgens de juiste locale te doen.
De meeste westerse locales betreft sortering zijn gebaseerd op collocatie definities voor Latin-1.
Als de "standaardtalen" het blijkbaar niet goed doen, dan is ofwel de locale niet goed gedefinieerd of er zitten fouten in het programmeerwerk ;-)) . Voor zover ik weet (maar let wel, ik ben geen ervaringsdeskundige) sorteren talen als Python in principe of de volgorde van de karakters zoals gedefinieerd in Unicode, maar de locale-setting kan daarvan afwijken. Mijn computers staan allemaal ingesteld op de Japanse locale, maar die is ook niet eenduidig: Windows gebruikt een andere sortering dan linux (*).
Aan de andere kant, inderdaad, dit soort sorteeralgoritmes zijn nodig en iemand moet het vuile werk opknappen. En je hebt (inderdaad, en natuurlijk) te maken met het feit dat er eigenlijk geen definities zijn die de lading voor 100% dekken en er zullen altijd uitzonderingen op de regels zijn. Hulde voor het feit dat jullie dit werk willen doen. Ik zou het niet kunnen omdat het me niet voldoende interesseert.
Met meer achtergrond; die informatie die daarvoor nodig is, is niet uit de schrijfwijze van woord te halen maar is metadata die uit een andere collectie moet komen. De collecties waar ik toegang tot heb, en dat zijn zeer uitgebreide, zou je dan deels met het sorteeralgoritme mee moeten distribueren en dat maakt het lastig.
Maar je zou toch zeggen dat in de linguistiek toch wel bepaalde regels bekend zijn omtrent de fonemen in het Nederlands. "aub" is geen foneem, maar "havo" daarentegen bevat 2 fonemen. Je zou verwachten dat dit soort info beschikbaar is voor een sorteeralgoritme, maar ik begrijp dat ook dit geen sluitende oplossing zal bieden voor alle gevallen.
Wat betreft het meeleveren van de woordenlijsten, je hoeft toch in feite alleen de afwijkingen mee te leveren? Maar ik begrijp dat het een heel gedoe is om een dergelijke lijst op te stellen.
Ik hoop dat ik op deze manier een deel van je zorgen weg heb kunnen halen.
Ik maak me geen zorgen hoor. Het is alleen een onderwerp dat mij echt volstrekt niet interesseert. In mijn leven als academicus gebruik ik veel tekstboeken, en iedere index is anders georganiseerd. Voor mij is het van belang dat ik zonder al teveel moeijte het onderwerp kan vinden waar ik naar op zoek ben. Ik begrijp dat voor woordenboeken en dergelijke er waarschijnlijk bijkomende voorwaarden en idealen zijn.
Groeten,Wilfred (*) voor diegenen die erin geinteresseerd zijn: de "volgorde" in het Japans is in principe als volgt: - medeklinkers in volgorde: -, k, s, t, n, h, m, y, r, w- binnen iedere medeklinker is de volgorde a, i, u, e, o- de eerste medeklinker is "-", dat betekent afwezigheid van een medeklinker. Dus sorteren op a, i, u, e, o, ka, ki, ku, ke, ko, sa, si, su, se, so, etc. Niet alle combinaties komen voor (yi, ye, wi, wu, we komen bijvoorbeeld niet voor).
De hiragana en katakana karakters hebben een fonetische waarde en zijn in deze volgorde opgenomen in Unicode. Het gedonder begint natuurlijk met de chinese karakters, want hoe moet je die sorteren? Op uitspraak? Dat is lastig, want de uitspraak van een karakter verschilt van geval tot geval. De volgorde in Unicode gebaseerd is op andere kenmerken dan (alleen) uitspraak. Om een voorbeeld te geven: 東京 Tokyo en 東舞鶴 "higashi Maizuru" worden allebei gesorteerd bij de 東 maar de uitspraak verschilt ;-)) Een van de rare verschillen tussen Windows en linux is dat Windows de Japanse "haakje openen "(" (dat is dus een haakje dat twee posities inneemt) sorteert voor het latijnse alfabet, terwijl linux het sorteert na de "z". Naar mijn ervaring zijn de meeste sorteeralgorithmes redelijk robuust, als je je PC instelt op locale "engels" dan gaat het sorteren van Japanse karakters nog steeds goed.
On Monday, May 4, 2015 10:25 PM, Pander pander@users.sourceforge.net wrote:
On 05/04/2015 01:39 PM, Wilfred van Rooijen wrote:
Ik ben nog niet overtuigd. Zoals een aantal van je eerdere "projecten" heeft het (weer) een hoog "ik heb iets geknutseld en nu moeten jullie er mee aan de slag"-gehalte. Tenzij ik het volkomen verkeerd begrijp en dan hoor ik dat graag.
Beste Wilfred,
Dat heb je zeker verkeerd. Dit is een serieus project waarvan de uitkomst niet alleen door OpenTaal maar ook een aantal andere organisaties in Nederland en België die actief zijn Nederlandse woordenlijsten bezig zijn gebruikt gaat worden.
Bij veel projecten hebben mensen vaak een mening maar is het een uitdaging ze echt inhoudelijk te betrekken. Dit project heeft hier http://lists.sf.own-it.nl/pipermail/opentaal/2015-May/thread.html en buiten de mailinglijst veel al opbouwende discussie en positieve reacties losgemaakt.
De versie op GitHub wordt nadat al het commentaar is verwerkt refactored en is momenteel work in progress.
De community van Stichting OpenTaal is er mee aan de slag gegaan en het heeft veel inzichten geven.
Wat voor inzichten dan?
- Hoe ziet iedereen dit het liefst in een woordenboek, encyclopedie of
woordenlijst?
- Als iemand daar een algoritme voor heeft liggen kan ik dat testen
tegen de uitgebreide lijst die wel hebben.
Ik zou zeggen dat je eerst definieert hoe je dit wil indexeren voordat je gaat programmeren. Als je mijn mening wil weten: lekker belangrijk. Het gaat er om dat je iets kan vinden, dus als "Nauw van Calais" bij de "C" of de "N" te vinden is, is het wat mij betreft prima. En ik kan me bijna niet voorstellen dat hier niet al een (de facto) standaardregel voor is.
Als uitgangspunt hebben we ook een lijst waarin de algemene eisen in voorbeelden zijn uitgeschreven.
Klopt. Dat komt omdat bij het sorteren van de lijst niet bekent is hoe de uitspraak is. Bijvoorbeeld aub en a.u.b. zouden vooraan bij de A moeten komen en havo gewoon in de lijst. Daar was (geautomatiseerd) geen beginnen aan. Die informatie is soms bekend maar niet volledig en uiteindelijk is de trend vooral om op schrijfwijze te sorteren.
"het is niet mogelijk in een geautomatiseerd systeem" is altijd een zwaktebod - je past het systeem maar aan aan de werkelijkheid en niet andersom :-))
De gegevens die nodig zijn om uitzonderingen op afkortingen aan de hand van de uitspraak te maken, zijn niet in enkele regels code te vangen. Dus is het niet makkelijk mogelijk. Daarbij komt ook nog eens auteursrecht bij kijken als delen van die collecties (afgeleid) worden gebruikt.
Daar zijn we bijna tot de conclusie gekomen dat de sort die de locale gebruikt dit zeer netjes doet. Soms heb ik bepaalde kleine requirements te laten vallen omdat je bij de standaard de sortering van de locale blijft. Wel vervelend is dat veel programmeertalen er een heel eigen sortering op nahouden.
En om de chaos te completeren verzinnen jullie er niet iets anders bij ;-))
Dat hangt af van een paar zaken waar we met de default sortering niet geheel content zijn, namelijk: - namen zoals Nauw van Calais - Griekse letters zoals in λ-calculus - getallen zoals in 100 eurobiljet t.o.v. 10 eurobiljet
Verder is hier meer te lezen over regionale verschillen: https://nl.wikipedia.org/wiki/Tussenvoegsel Wat dit project op gaat leveren zal zowel in Vlaanderen als in Nederlands bruikbaar moeten zijn.
Meer informatie is te vinden op: http://taaladvies.net/taal/advies/tekst/87/literatuurlijsten_algemeen/#4
Het project is om te onderzoeken wat er allemaal bestaat, welke eisen en wensen er zijn, hoe die overeenkomen met de verschillende bestaande sorteringen, welke wensen we kunnen herformuleren of kunnen laten vallen om zo veel mogelijk op een bestaande oplossing uit te komen en *eventueel* goed bediscussieerd, goed onderbouwd en goed gedocumenteerd een uitbreiding aanbieden op wie daar behoefte aan heeft. Verder houden we ook de alfabetiseringsprincipes Nederlands aan zoals gebruikt wordt bij de grote woordenboekuitgeverijen.
Groeten,
Pander
Groeten, Wilfred
On Monday, May 4, 2015 6:11 PM, Pander pander@users.sourceforge.net wrote:
> Ik heb de site even bekeken - sorteer je "van Rooijen" bij de "R" > (correct in NL) of the "V"? Zijn daar nog regionale verschillen in > tussen Nederlands en Vlaams?
Eigennamen komen in de lijst van de Taalunie die te doorzoeken is op http://woordenlijst.org http://woordenlijst.org/niet voor. OpenTaal heeft die wel een aantal, met name toponiemen zoals: Nauw van Calais Unie van de Comoren huis van Oranje-Nassau hertog van Alva Vlakte van Jizreël Landengte van Panama Grote Van Dale Van Ewijcksluis
Je schrijft dat het algorithme geen > onderscheid maakt tussen "woorden" en "afkortingen".
In het geval dat je > een lijst hebt als deze: "Aap AAp aap aAP b.v. bv B.V. BV" hoe zou de > gesorteerde lijst er uitzien?
Groeten,
Pander
> > Groeten, > Wilfred > > > > On Friday, May 1, 2015 7:42 PM, Pander <pander@users.sourceforge.net mailto:pander@users.sourceforge.net> wrote: > > > > Hoi allemaal, > > Mochten jullie interesse hebben in het sorteren van Nederlandse woorden > voor een woordenboek of -lijst, denk eens mee voor > https://github.com/OpenTaal/alphabetical-sort/blob/master/README.md > > Groetjes, > > Pander > _______________________________________________ > TeX-NL mailing list > TeX-NL@ntg.nl mailto:TeX-NL@ntg.nl <mailto:TeX-NL@ntg.nl mailto:TeX-NL@ntg.nl> > http://www.ntg.nl/cgi-bin/mailman/listinfo/tex-nl
> > > > > _______________________________________________ > TeX-NL mailing list > TeX-NL@ntg.nl mailto:TeX-NL@ntg.nl > http://www.ntg.nl/cgi-bin/mailman/listinfo/tex-nl >
On 5 May 2015 03:01:21 CEST, Wilfred van Rooijen wvanrooijen@yahoo.com wrote:
Van welke andere projecten heb je ook een dergelijke mening? Hopelijk kan ik die ook graag ontkrachten.
(ik parafraseer een beetje :-)) )
20 december 2013: "ik heb iets met een dictee geknutseld, willen jullie het bekijken en naar CTAN uploaden?"
Correcte tekst is http://www.ntg.nl/pipermail/tex-nl/2013-December/000659.html
Die is door verschillende mensen gereviewed en positief ontvangen en uiteindelijk naar CTAN gegaan. Deze wordt daar nog toegevoegd heb ik bevestigd gekregen per email.
10 november 2014: "Ik heb iets met fonts gedaan willen jullie er naar kijken en uploaden naar CTAN?"
Correcte tekst is http://www.ntg.nl/pipermail/tex-nl/2014-November/000730.html
Hier ben ik met beheerders van CTAN in dialoog over welke fonts wel en welke niet geschikt zijn. Inmiddels ziet dat project er veel uitgebreider uit.
Ik wil je natuurlijk niet in een slecht daglicht stellen maar dit soort emails wekt mijn wrevel op. Heb je iets te bieden, dan vind ik dat prima maar opmerkingen als "willen jullie er eens naar kijken" wekt de indruk van luiheid en ondeskundigheid.
Dan zit het in de verwoording. Juist om niet de waarheid in pacht te hebben vraag ik om terugkoppeling van wat ik heb gebouwd, aan ga beginnen of me bezig ben. Het antwoord op een dergelijke vraag mag altijd nee zijn.
Bij mijn vraag over alfabetisch sorteren was heel duidelijk vermeld dat een project daarover was gestart en het dat het al af was. Juist door dat te communiceren beoogde ik open te zijn. Merendeel van het werk wordt ook door mij gedaan en als het je niet interesseert schrijf je er toch veel over.
Wat mij betreft sluit ik dit deel van de discussie zo pragmatisch mogelijk af tenzij anderen hier nog iets over willen zeggen.
Dat sorteren voor woordenboeken, woordenlijsten en dergelijke niet triviaal is. Met name software zoals Perl, Python en Java zul je expliciet moeten instrueren om het volgens de juiste locale te doen.
De meeste westerse locales betreft sortering zijn gebaseerd op collocatie definities voor Latin-1.
Als de "standaardtalen" het blijkbaar niet goed doen, dan is ofwel de locale niet goed gedefinieerd of er zitten fouten in het programmeerwerk ;-)) . Voor zover ik weet (maar let wel, ik ben geen ervaringsdeskundige) sorteren talen als Python in principe of de volgorde van de karakters zoals gedefinieerd in Unicode, maar de locale-setting kan daarvan afwijken. Mijn computers staan allemaal ingesteld op de Japanse locale, maar die is ook niet eenduidig: Windows gebruikt een andere sortering dan linux (*).
Locale Latin, die door veel talen wordt gebruikt is op bepaalde aspecten voordeliger voor de ene taal t.o.v. de andere. Locale Latin aanpassen geeft te veel gedoe. I.i.g. is sortering locale Latin beter dan mondiale volgorde in Unicode.
Aan de andere kant, inderdaad, dit soort sorteeralgoritmes zijn nodig en iemand moet het vuile werk opknappen. En je hebt (inderdaad, en natuurlijk) te maken met het feit dat er eigenlijk geen definities zijn die de lading voor 100% dekken en er zullen altijd uitzonderingen op de regels zijn. Hulde voor het feit dat jullie dit werk willen doen. Ik zou het niet kunnen omdat het me niet voldoende interesseert.
Dank je wel. Voor mijn werk en het werk van anderen is dit wel van belang en ik ben degene die hier de meeste tijd in investeert. Het gaat niet 100% alle partijen tevreden stellen, vandaar mijn uitnodiging, voor wie wil, om mee te denken.
Met meer achtergrond; die informatie die daarvoor nodig is, is niet
uit
de schrijfwijze van woord te halen maar is metadata die uit een
andere
collectie moet komen. De collecties waar ik toegang tot heb, en dat
zijn
zeer uitgebreide, zou je dan deels met het sorteeralgoritme mee
moeten
distribueren en dat maakt het lastig.
Maar je zou toch zeggen dat in de linguistiek toch wel bepaalde regels bekend zijn omtrent de fonemen in het Nederlands. "aub" is geen foneem, maar "havo" daarentegen bevat 2 fonemen. Je zou verwachten dat dit soort info beschikbaar is voor een sorteeralgoritme, maar ik begrijp dat ook dit geen sluitende oplossing zal bieden voor alle gevallen.
Er zijn dus veel varianten van die regels. Bijvoorbeeld Van Dale heeft weer eigen details t.o.v. wat sortering met locale oplevert.
Wat betreft het meeleveren van de woordenlijsten, je hoeft toch in feite alleen de afwijkingen mee te leveren? Maar ik begrijp dat het een heel gedoe is om een dergelijke lijst op te stellen.
Ik hoop dat ik op deze manier een deel van je zorgen weg heb kunnen halen.
Ik maak me geen zorgen hoor. Het is alleen een onderwerp dat mij echt volstrekt niet interesseert. In mijn leven als academicus gebruik ik veel tekstboeken, en iedere index is anders georganiseerd. Voor mij is het van belang dat ik zonder al teveel moeijte het onderwerp kan vinden waar ik naar op zoek ben. Ik begrijp dat voor woordenboeken en dergelijke er waarschijnlijk bijkomende voorwaarden en idealen zijn.
Dat nemen we ook in ogenschouw. Veelal zal digitaal gezocht worden en speelt dit geen rol. Als men in folio Nauw van Calais niet bij de C kan vinden komt het aan pp kunde van de gebruiker. ;)
Groeten,Wilfred (*) voor diegenen die erin geinteresseerd zijn: de "volgorde" in het Japans is in principe als volgt:
- medeklinkers in volgorde: -, k, s, t, n, h, m, y, r, w- binnen iedere
medeklinker is de volgorde a, i, u, e, o- de eerste medeklinker is "-", dat betekent afwezigheid van een medeklinker. Dus sorteren op a, i, u, e, o, ka, ki, ku, ke, ko, sa, si, su, se, so, etc. Niet alle combinaties komen voor (yi, ye, wi, wu, we komen bijvoorbeeld niet voor).
De hiragana en katakana karakters hebben een fonetische waarde en zijn in deze volgorde opgenomen in Unicode. Het gedonder begint natuurlijk met de chinese karakters, want hoe moet je die sorteren? Op uitspraak? Dat is lastig, want de uitspraak van een karakter verschilt van geval tot geval. De volgorde in Unicode gebaseerd is op andere kenmerken dan (alleen) uitspraak. Om een voorbeeld te geven: 東京 Tokyo en 東舞鶴 "higashi Maizuru" worden allebei gesorteerd bij de 東 maar de uitspraak verschilt ;-)) Een van de rare verschillen tussen Windows en linux is dat Windows de Japanse "haakje openen "(" (dat is dus een haakje dat twee posities inneemt) sorteert voor het latijnse alfabet, terwijl linux het sorteert na de "z". Naar mijn ervaring zijn de meeste sorteeralgorithmes redelijk robuust, als je je PC instelt op locale "engels" dan gaat het sorteren van Japanse karakters nog steeds goed.
Dat probleem met die haakjes zou je met een workaround kunnen fiksen door ze voor de sortering tijdelijk te vervangen door een karakter dat in die context nooit wordt gebruikt maar wel de juist sortering bewerkstelligd.
Ik heb ook Japanse woorden gezien die op radicale sorteerden. Komt dat bekend voor?
Voor wie interesse heeft in Engelstalige locale voor Nederlanders geografisch gebied, zie zorgvuldig uitontwikkelde en gereviewde https://github.com/PanderMusubi/locale-en-nl
Groeten,
Pander
On Monday, May 4, 2015 10:25 PM, Pander pander@users.sourceforge.net wrote:
On 05/04/2015 01:39 PM, Wilfred van Rooijen wrote:
Ik ben nog niet overtuigd. Zoals een aantal van je eerdere
"projecten"
heeft het (weer) een hoog "ik heb iets geknutseld en nu moeten jullie
er
mee aan de slag"-gehalte. Tenzij ik het volkomen verkeerd begrijp en
dan
hoor ik dat graag.
Beste Wilfred,
Dat heb je zeker verkeerd. Dit is een serieus project waarvan de uitkomst niet alleen door OpenTaal maar ook een aantal andere organisaties in Nederland en België die actief zijn Nederlandse woordenlijsten bezig zijn gebruikt gaat worden.
Bij veel projecten hebben mensen vaak een mening maar is het een uitdaging ze echt inhoudelijk te betrekken. Dit project heeft hier http://lists.sf.own-it.nl/pipermail/opentaal/2015-May/thread.html en buiten de mailinglijst veel al opbouwende discussie en positieve reacties losgemaakt.
De versie op GitHub wordt nadat al het commentaar is verwerkt refactored en is momenteel work in progress.
De community van Stichting OpenTaal is er mee aan de slag gegaan en
het
heeft veel inzichten geven.
Wat voor inzichten dan?
- Hoe ziet iedereen dit het liefst in een woordenboek, encyclopedie
of
woordenlijst?
- Als iemand daar een algoritme voor heeft liggen kan ik dat testen
tegen de uitgebreide lijst die wel hebben.
Ik zou zeggen dat je eerst definieert hoe je dit wil indexeren
voordat
je gaat programmeren. Als je mijn mening wil weten: lekker
belangrijk.
Het gaat er om dat je iets kan vinden, dus als "Nauw van Calais" bij
de
"C" of de "N" te vinden is, is het wat mij betreft prima. En ik kan
me
bijna niet voorstellen dat hier niet al een (de facto) standaardregel voor is.
Als uitgangspunt hebben we ook een lijst waarin de algemene eisen in voorbeelden zijn uitgeschreven.
Klopt. Dat komt omdat bij het sorteren van de lijst niet bekent is
hoe
de uitspraak is. Bijvoorbeeld aub en a.u.b. zouden vooraan bij de A moeten komen en havo gewoon in de lijst. Daar was (geautomatiseerd) geen beginnen aan. Die informatie is soms bekend maar niet volledig en uiteindelijk is de trend vooral om op schrijfwijze te sorteren.
"het is niet mogelijk in een geautomatiseerd systeem" is altijd een zwaktebod - je past het systeem maar aan aan de werkelijkheid en niet andersom :-))
De gegevens die nodig zijn om uitzonderingen op afkortingen aan de hand van de uitspraak te maken, zijn niet in enkele regels code te vangen. Dus is het niet makkelijk mogelijk. Daarbij komt ook nog eens auteursrecht bij kijken als delen van die collecties (afgeleid) worden gebruikt.
Daar zijn we bijna tot de conclusie gekomen dat de sort die de
locale
gebruikt dit zeer netjes doet. Soms heb ik bepaalde kleine
requirements
te laten vallen omdat je bij de standaard de sortering van de locale blijft. Wel vervelend is dat veel programmeertalen er een heel eigen sortering op nahouden.
En om de chaos te completeren verzinnen jullie er niet iets anders
bij ;-))
Dat hangt af van een paar zaken waar we met de default sortering niet geheel content zijn, namelijk:
- namen zoals Nauw van Calais
- Griekse letters zoals in λ-calculus
- getallen zoals in 100 eurobiljet t.o.v. 10 eurobiljet
Verder is hier meer te lezen over regionale verschillen: https://nl.wikipedia.org/wiki/Tussenvoegsel Wat dit project op gaat leveren zal zowel in Vlaanderen als in Nederlands bruikbaar moeten zijn.
Meer informatie is te vinden op: http://taaladvies.net/taal/advies/tekst/87/literatuurlijsten_algemeen/#4
Het project is om te onderzoeken wat er allemaal bestaat, welke eisen en wensen er zijn, hoe die overeenkomen met de verschillende bestaande sorteringen, welke wensen we kunnen herformuleren of kunnen laten vallen om zo veel mogelijk op een bestaande oplossing uit te komen en *eventueel* goed bediscussieerd, goed onderbouwd en goed gedocumenteerd een uitbreiding aanbieden op wie daar behoefte aan heeft. Verder houden we ook de alfabetiseringsprincipes Nederlands aan zoals gebruikt wordt bij de grote woordenboekuitgeverijen.
Groeten,
Pander
Groeten, Wilfred
On Monday, May 4, 2015 6:11 PM, Pander pander@users.sourceforge.net
wrote:
> Ik heb de site even bekeken - sorteer je "van Rooijen" bij de
"R"
> (correct in NL) of the "V"? Zijn daar nog regionale verschillen
in
> tussen Nederlands en Vlaams?
Eigennamen komen in de lijst van de Taalunie die te doorzoeken is
op
http://woordenlijst.org http://woordenlijst.org/niet voor. OpenTaal heeft die wel een aantal, met name toponiemen zoals: Nauw van Calais Unie van de Comoren huis van Oranje-Nassau hertog van Alva Vlakte van Jizreël Landengte van Panama Grote Van Dale Van Ewijcksluis
Je schrijft dat het algorithme geen > onderscheid maakt tussen "woorden" en "afkortingen".
In het geval dat je > een lijst hebt als deze: "Aap AAp aap aAP b.v. bv B.V. BV" hoe
zou de
> gesorteerde lijst er uitzien?
Groeten,
Pander
> > Groeten, > Wilfred > > > > On Friday, May 1, 2015 7:42 PM, Pander <pander@users.sourceforge.net
mailto:pander@users.sourceforge.net>
wrote: > > > > Hoi allemaal, > > Mochten jullie interesse hebben in het sorteren van
Nederlandse
woorden > voor een woordenboek of -lijst, denk eens mee voor >
https://github.com/OpenTaal/alphabetical-sort/blob/master/README.md
> > Groetjes, > > Pander > _______________________________________________ > TeX-NL mailing list > TeX-NL@ntg.nl mailto:TeX-NL@ntg.nl <mailto:TeX-NL@ntg.nl mailto:TeX-NL@ntg.nl> > http://www.ntg.nl/cgi-bin/mailman/listinfo/tex-nl
> > > > > _______________________________________________ > TeX-NL mailing list > TeX-NL@ntg.nl mailto:TeX-NL@ntg.nl > http://www.ntg.nl/cgi-bin/mailman/listinfo/tex-nl >
Voor wat betreft de kanji in het Japans: ieder karakter bestaat uit een of meer bouwsteentjes. Deze bouwsteentjes worden "radicals" genoemd. Er zijn enkele tientallen radicals. Kanji-woordenboeken e.d. worden geindexeerd op radical: de radicals staan in volgorde van de "stroke count". Dus je hebt eerst de sectie van alle radicals van 1 streep; dan de radicals met 2 strepen; dan de radicals met 3 strepen, etc. Ieder karakter heeft een "belangrijkste" radical.
Als je dus een karakter moet opzoeken in een (elektronisch) woordenboek, dan moet je eerst weten welk onderdeeltje van het karakter "de" radical is. Vaak is "de" radical de eerste radical die je schrijft als je het karakter schrijft (de schrijfwijze, dus de volgorde waarin je de strepen op papier zet) van de karakters is in principe vast. Dan ga je naar de sectie van die radical en dan is het zoeken naar het karakter. De karakters worden gesorteerd op basis van de stroke count dus je moet enige basiskennis hebben over hoe je een karakter moet schrijven. Bijvoorbeeld, het karakter 田 heeft paradoxaal genoeg maar 5 strokes (je zou 6 verwachten), en 市 heeft 5 strokes (je zou 3 of 4 verwachten).
In de loop van de jaren zijn er verscheidene "databases" ontstaan (Tuttle, Hens met ieder hun eigen volgorde van de radicals, en in sommige gevallen is het ook niet eenduidig bepaald welk onderdeel van een karakter als "de" radical wordt gezien. Dat betekent dat de volgorde van de karakters sterk verschilt tussen de verschillende systemen. Japanse computers sorteren in principe volgens de JIS-standaard. De JIS-set is een soort basis-set van karakters die minimaal ondersteund moet worden in electronische apparatuur (niet alleen PCs, maar ook mobiele telefoons, kassa's, matrixborden langs de snelweg, infoborden op stations, etc). De JIS-standaard bevat in de orde van 6500 karakters; de "standaardset" van het ministerie van onderwijs (1950 karakters) is een subset van de JIS standaard. De JIS standaard is bij tijd en wijle nogal idiosyncratisch met de volgorde; de volgorde is niet dezelfde als de lijst van het ministerie van onderwijs. Voor zover ik weet volgt Unicode de JIS-standaard, maar voor karakters die buiten de JIS-lijst weet ik niet hoe de volgorde wordt bepaald (*). (*) Men zegt wel eens dat er 50.000 Chinese karakters zijn (waren). Dat is in principe waar, maar er zijn heel heel veel karakters die slechts in details verschillen (een radical verschilt) maar verder met gelijke betekenis en uitspraak. Na WO2 heeft men gepoogd om wat orde in de chaos te brengen door "doublures" weg te halen, sommige "ingewikkelde" radicals te vereenvoudigen, etc. Dit leidde tot de eerste lijst van 1848 "basiskarakters". Helaas bleek al snel "de mense" in de praktijk meer karakters wilden: bijvoorbeeld familienamen, en eigennamen van steden en regio's wilde men liever blijven schrijven met de oude karakters. De lijst werd uitgebreid naar 1950 karakters maar ook dat bleek niet genoeg: bijvoorbeeld religieuze (boedhistische en shintoistische) geschriften gebruiken veel niet-standaard karakters. Nou ja, als je een routebeschrijving naar een tempel wil printen zal je PC toch ook die afwijkende karakters moeten aankunnen, dus vandaar dat de JIS standaard uiteindelijk rond de 6500 karakters heeft. In de praktijk is dat voldoende. Overigens is er een extensie op de JIS set voor mobiel dataverkeer die ook enkele tientallen emoticons en icoontjes heeft; de icoontjes van WhatsApp komen uit de JIS standaard.
Groeten,Wilfred
On Tuesday, May 5, 2015 5:37 PM, Pander pander@users.sourceforge.net wrote:
On 5 May 2015 03:01:21 CEST, Wilfred van Rooijen wvanrooijen@yahoo.com wrote:
Van welke andere projecten heb je ook een dergelijke mening? Hopelijk kan ik die ook graag ontkrachten.
(ik parafraseer een beetje :-)) )
20 december 2013: "ik heb iets met een dictee geknutseld, willen jullie het bekijken en naar CTAN uploaden?"
Correcte tekst is http://www.ntg.nl/pipermail/tex-nl/2013-December/000659.html
Die is door verschillende mensen gereviewed en positief ontvangen en uiteindelijk naar CTAN gegaan. Deze wordt daar nog toegevoegd heb ik bevestigd gekregen per email.
10 november 2014: "Ik heb iets met fonts gedaan willen jullie er naar kijken en uploaden naar CTAN?"
Correcte tekst is http://www.ntg.nl/pipermail/tex-nl/2014-November/000730.html
Hier ben ik met beheerders van CTAN in dialoog over welke fonts wel en welke niet geschikt zijn. Inmiddels ziet dat project er veel uitgebreider uit.
Ik wil je natuurlijk niet in een slecht daglicht stellen maar dit soort emails wekt mijn wrevel op. Heb je iets te bieden, dan vind ik dat prima maar opmerkingen als "willen jullie er eens naar kijken" wekt de indruk van luiheid en ondeskundigheid.
Dan zit het in de verwoording. Juist om niet de waarheid in pacht te hebben vraag ik om terugkoppeling van wat ik heb gebouwd, aan ga beginnen of me bezig ben. Het antwoord op een dergelijke vraag mag altijd nee zijn.
Bij mijn vraag over alfabetisch sorteren was heel duidelijk vermeld dat een project daarover was gestart en het dat het al af was. Juist door dat te communiceren beoogde ik open te zijn. Merendeel van het werk wordt ook door mij gedaan en als het je niet interesseert schrijf je er toch veel over.
Wat mij betreft sluit ik dit deel van de discussie zo pragmatisch mogelijk af tenzij anderen hier nog iets over willen zeggen.
Dat sorteren voor woordenboeken, woordenlijsten en dergelijke niet triviaal is. Met name software zoals Perl, Python en Java zul je expliciet moeten instrueren om het volgens de juiste locale te doen.
De meeste westerse locales betreft sortering zijn gebaseerd op collocatie definities voor Latin-1.
Als de "standaardtalen" het blijkbaar niet goed doen, dan is ofwel de locale niet goed gedefinieerd of er zitten fouten in het programmeerwerk ;-)) . Voor zover ik weet (maar let wel, ik ben geen ervaringsdeskundige) sorteren talen als Python in principe of de volgorde van de karakters zoals gedefinieerd in Unicode, maar de locale-setting kan daarvan afwijken. Mijn computers staan allemaal ingesteld op de Japanse locale, maar die is ook niet eenduidig: Windows gebruikt een andere sortering dan linux (*).
Locale Latin, die door veel talen wordt gebruikt is op bepaalde aspecten voordeliger voor de ene taal t.o.v. de andere. Locale Latin aanpassen geeft te veel gedoe. I.i.g. is sortering locale Latin beter dan mondiale volgorde in Unicode.
Aan de andere kant, inderdaad, dit soort sorteeralgoritmes zijn nodig en iemand moet het vuile werk opknappen. En je hebt (inderdaad, en natuurlijk) te maken met het feit dat er eigenlijk geen definities zijn die de lading voor 100% dekken en er zullen altijd uitzonderingen op de regels zijn. Hulde voor het feit dat jullie dit werk willen doen. Ik zou het niet kunnen omdat het me niet voldoende interesseert.
Dank je wel. Voor mijn werk en het werk van anderen is dit wel van belang en ik ben degene die hier de meeste tijd in investeert. Het gaat niet 100% alle partijen tevreden stellen, vandaar mijn uitnodiging, voor wie wil, om mee te denken.
Met meer achtergrond; die informatie die daarvoor nodig is, is niet
uit
de schrijfwijze van woord te halen maar is metadata die uit een
andere
collectie moet komen. De collecties waar ik toegang tot heb, en dat
zijn
zeer uitgebreide, zou je dan deels met het sorteeralgoritme mee
moeten
distribueren en dat maakt het lastig.
Maar je zou toch zeggen dat in de linguistiek toch wel bepaalde regels bekend zijn omtrent de fonemen in het Nederlands. "aub" is geen foneem, maar "havo" daarentegen bevat 2 fonemen. Je zou verwachten dat dit soort info beschikbaar is voor een sorteeralgoritme, maar ik begrijp dat ook dit geen sluitende oplossing zal bieden voor alle gevallen.
Er zijn dus veel varianten van die regels. Bijvoorbeeld Van Dale heeft weer eigen details t.o.v. wat sortering met locale oplevert.
Wat betreft het meeleveren van de woordenlijsten, je hoeft toch in feite alleen de afwijkingen mee te leveren? Maar ik begrijp dat het een heel gedoe is om een dergelijke lijst op te stellen.
Ik hoop dat ik op deze manier een deel van je zorgen weg heb kunnen halen.
Ik maak me geen zorgen hoor. Het is alleen een onderwerp dat mij echt volstrekt niet interesseert. In mijn leven als academicus gebruik ik veel tekstboeken, en iedere index is anders georganiseerd. Voor mij is het van belang dat ik zonder al teveel moeijte het onderwerp kan vinden waar ik naar op zoek ben. Ik begrijp dat voor woordenboeken en dergelijke er waarschijnlijk bijkomende voorwaarden en idealen zijn.
Dat nemen we ook in ogenschouw. Veelal zal digitaal gezocht worden en speelt dit geen rol. Als men in folio Nauw van Calais niet bij de C kan vinden komt het aan pp kunde van de gebruiker. ;)
Groeten,Wilfred (*) voor diegenen die erin geinteresseerd zijn: de "volgorde" in het Japans is in principe als volgt:
- medeklinkers in volgorde: -, k, s, t, n, h, m, y, r, w- binnen iedere
medeklinker is de volgorde a, i, u, e, o- de eerste medeklinker is "-", dat betekent afwezigheid van een medeklinker. Dus sorteren op a, i, u, e, o, ka, ki, ku, ke, ko, sa, si, su, se, so, etc. Niet alle combinaties komen voor (yi, ye, wi, wu, we komen bijvoorbeeld niet voor).
De hiragana en katakana karakters hebben een fonetische waarde en zijn in deze volgorde opgenomen in Unicode. Het gedonder begint natuurlijk met de chinese karakters, want hoe moet je die sorteren? Op uitspraak? Dat is lastig, want de uitspraak van een karakter verschilt van geval tot geval. De volgorde in Unicode gebaseerd is op andere kenmerken dan (alleen) uitspraak. Om een voorbeeld te geven: 東京 Tokyo en 東舞鶴 "higashi Maizuru" worden allebei gesorteerd bij de 東 maar de uitspraak verschilt ;-)) Een van de rare verschillen tussen Windows en linux is dat Windows de Japanse "haakje openen "(" (dat is dus een haakje dat twee posities inneemt) sorteert voor het latijnse alfabet, terwijl linux het sorteert na de "z". Naar mijn ervaring zijn de meeste sorteeralgorithmes redelijk robuust, als je je PC instelt op locale "engels" dan gaat het sorteren van Japanse karakters nog steeds goed.
Dat probleem met die haakjes zou je met een workaround kunnen fiksen door ze voor de sortering tijdelijk te vervangen door een karakter dat in die context nooit wordt gebruikt maar wel de juist sortering bewerkstelligd.
Ik heb ook Japanse woorden gezien die op radicale sorteerden. Komt dat bekend voor?
Voor wie interesse heeft in Engelstalige locale voor Nederlanders geografisch gebied, zie zorgvuldig uitontwikkelde en gereviewde https://github.com/PanderMusubi/locale-en-nl
Groeten,
Pander
On Monday, May 4, 2015 10:25 PM, Pander pander@users.sourceforge.net wrote:
On 05/04/2015 01:39 PM, Wilfred van Rooijen wrote:
Ik ben nog niet overtuigd. Zoals een aantal van je eerdere
"projecten"
heeft het (weer) een hoog "ik heb iets geknutseld en nu moeten jullie
er
mee aan de slag"-gehalte. Tenzij ik het volkomen verkeerd begrijp en
dan
hoor ik dat graag.
Beste Wilfred,
Dat heb je zeker verkeerd. Dit is een serieus project waarvan de uitkomst niet alleen door OpenTaal maar ook een aantal andere organisaties in Nederland en België die actief zijn Nederlandse woordenlijsten bezig zijn gebruikt gaat worden.
Bij veel projecten hebben mensen vaak een mening maar is het een uitdaging ze echt inhoudelijk te betrekken. Dit project heeft hier http://lists.sf.own-it.nl/pipermail/opentaal/2015-May/thread.html en buiten de mailinglijst veel al opbouwende discussie en positieve reacties losgemaakt.
De versie op GitHub wordt nadat al het commentaar is verwerkt refactored en is momenteel work in progress.
De community van Stichting OpenTaal is er mee aan de slag gegaan en
het
heeft veel inzichten geven.
Wat voor inzichten dan?
- Hoe ziet iedereen dit het liefst in een woordenboek, encyclopedie
of
woordenlijst?
- Als iemand daar een algoritme voor heeft liggen kan ik dat testen
tegen de uitgebreide lijst die wel hebben.
Ik zou zeggen dat je eerst definieert hoe je dit wil indexeren
voordat
je gaat programmeren. Als je mijn mening wil weten: lekker
belangrijk.
Het gaat er om dat je iets kan vinden, dus als "Nauw van Calais" bij
de
"C" of de "N" te vinden is, is het wat mij betreft prima. En ik kan
me
bijna niet voorstellen dat hier niet al een (de facto) standaardregel voor is.
Als uitgangspunt hebben we ook een lijst waarin de algemene eisen in voorbeelden zijn uitgeschreven.
Klopt. Dat komt omdat bij het sorteren van de lijst niet bekent is
hoe
de uitspraak is. Bijvoorbeeld aub en a.u.b. zouden vooraan bij de A moeten komen en havo gewoon in de lijst. Daar was (geautomatiseerd) geen beginnen aan. Die informatie is soms bekend maar niet volledig en uiteindelijk is de trend vooral om op schrijfwijze te sorteren.
"het is niet mogelijk in een geautomatiseerd systeem" is altijd een zwaktebod - je past het systeem maar aan aan de werkelijkheid en niet andersom :-))
De gegevens die nodig zijn om uitzonderingen op afkortingen aan de hand van de uitspraak te maken, zijn niet in enkele regels code te vangen. Dus is het niet makkelijk mogelijk. Daarbij komt ook nog eens auteursrecht bij kijken als delen van die collecties (afgeleid) worden gebruikt.
Daar zijn we bijna tot de conclusie gekomen dat de sort die de
locale
gebruikt dit zeer netjes doet. Soms heb ik bepaalde kleine
requirements
te laten vallen omdat je bij de standaard de sortering van de locale blijft. Wel vervelend is dat veel programmeertalen er een heel eigen sortering op nahouden.
En om de chaos te completeren verzinnen jullie er niet iets anders
bij ;-))
Dat hangt af van een paar zaken waar we met de default sortering niet geheel content zijn, namelijk:
- namen zoals Nauw van Calais
- Griekse letters zoals in λ-calculus
- getallen zoals in 100 eurobiljet t.o.v. 10 eurobiljet
Verder is hier meer te lezen over regionale verschillen: https://nl.wikipedia.org/wiki/Tussenvoegsel Wat dit project op gaat leveren zal zowel in Vlaanderen als in Nederlands bruikbaar moeten zijn.
Meer informatie is te vinden op: http://taaladvies.net/taal/advies/tekst/87/literatuurlijsten_algemeen/#4
Het project is om te onderzoeken wat er allemaal bestaat, welke eisen en wensen er zijn, hoe die overeenkomen met de verschillende bestaande sorteringen, welke wensen we kunnen herformuleren of kunnen laten vallen om zo veel mogelijk op een bestaande oplossing uit te komen en *eventueel* goed bediscussieerd, goed onderbouwd en goed gedocumenteerd een uitbreiding aanbieden op wie daar behoefte aan heeft. Verder houden we ook de alfabetiseringsprincipes Nederlands aan zoals gebruikt wordt bij de grote woordenboekuitgeverijen.
Groeten,
Pander
Groeten, Wilfred
On Monday, May 4, 2015 6:11 PM, Pander pander@users.sourceforge.net
wrote:
> Ik heb de site even bekeken - sorteer je "van Rooijen" bij de
"R"
> (correct in NL) of the "V"? Zijn daar nog regionale verschillen
in
> tussen Nederlands en Vlaams?
Eigennamen komen in de lijst van de Taalunie die te doorzoeken is
op
http://woordenlijst.org http://woordenlijst.org/niet voor. OpenTaal heeft die wel een aantal, met name toponiemen zoals: Nauw van Calais Unie van de Comoren huis van Oranje-Nassau hertog van Alva Vlakte van Jizreël Landengte van Panama Grote Van Dale Van Ewijcksluis
Je schrijft dat het algorithme geen > onderscheid maakt tussen "woorden" en "afkortingen".
In het geval dat je > een lijst hebt als deze: "Aap AAp aap aAP b.v. bv B.V. BV" hoe
zou de
> gesorteerde lijst er uitzien?
Groeten,
Pander
> > Groeten, > Wilfred > > > > On Friday, May 1, 2015 7:42 PM, Pander <pander@users.sourceforge.net
mailto:pander@users.sourceforge.net>
wrote: > > > > Hoi allemaal, > > Mochten jullie interesse hebben in het sorteren van
Nederlandse
woorden > voor een woordenboek of -lijst, denk eens mee voor >
https://github.com/OpenTaal/alphabetical-sort/blob/master/README.md
> > Groetjes, > > Pander > _______________________________________________ > TeX-NL mailing list > TeX-NL@ntg.nl mailto:TeX-NL@ntg.nl <mailto:TeX-NL@ntg.nl mailto:TeX-NL@ntg.nl> > http://www.ntg.nl/cgi-bin/mailman/listinfo/tex-nl
> > > > > _______________________________________________ > TeX-NL mailing list > TeX-NL@ntg.nl mailto:TeX-NL@ntg.nl > http://www.ntg.nl/cgi-bin/mailman/listinfo/tex-nl >