Wikipedia:Landsbybrønden/Skifte fra ISO-8859-1 til UTF-8

Skifte fra ISO-8859-1 til UTF-8 redigér

Den tyske Wikipedia har lige skiftet fra ISO-8859-1 til UTF-8, læs om deres erfaringer med skiftet. Hollænderne, spanierne og franskmændene har også skiftet for nylig. Tilbage er der kun dansk, svensk og engelsk der stadig bruger ISO-8859-1. Jeg syntes vi bør skifte indenfor den nærmeste fremtid.

For dem der ikke lige ved hvad det går ud på, så er ISO-8859-1 basalt det samme som ASCII tegnsættet med lidt tilføjelser, og UTF-8 er et unicode tegnsæt der kan vise alle verdens sprog og tegnsæt. For Wikipedia er det vigtig at kunne vise alle sprog i deres naturlige tegnsæt, derfor er man ved at ændre alle versioner til UTF-8.

Det er dog ikke helt problemfrit, da mange ældre browsere ikke understøtter UTF-8 særlig godt, så man har forsøgt at vente lidt med de sprog hvor det ikke var absolut nødvendigt (for eksempel dansk) og så lade de forskellige browsere modne lidt. Man kan læse lidt om hvilke browsere der har problemer. Det drejer sig for eksempel om Internet Explorer 5.0 og ældre versioner, Opera 5.0 og ældre versioner, Netscape 4.x og ældre versioner, og så er der specielle browsere som Lynx og Links som skal sættes specielt op for at klare UTF-8. Mozilla ser derimod ud til at klare det fint.

Hvis nogen er gode til tysk, så burde vi nok have oversat denne artikel til Hjælp:Browser-OSS inden vi skifter til UTF-8.

Hvis du bruger en af ovennænvnte ældre browsere vil du få problemer med at redigere i Wikipedias artikler, så vi vil gerne vide hvis du af en eller anden grund ikke kan/vil opgradere. Hvis det drejer sig om mange og/eller meget aktive bidragsydere, så er det måske værd at vente endnu længere inden vi skifter. Vi vil jo nødig sende nogen bort på grund af tekniske problemer.

--Christian List 6. aug 2004 kl. 16:04 (CEST)

Jeg er gået i gang med at oversætte det tyske UTF-8-browser-FAQ til dansk. - Kåre Thor Olsen (Kaare) 6. aug 2004 kl. 20:29 (CEST)
Oversættelsen er udført men ikke gennemlæst; andre er velkomne til at arbejde videre - jeg orker ikke mere i dag. - Kåre Thor Olsen (Kaare)
Skift til UTF-8 er ok med mig :-) Nogle skoler vil muligvis få problemer, de plejer ikke at have for mange penge til indkøb af nyt computergrej. Men hvis man godt kan læse artiklerne med de ældre browsere, så tror jeg ikke det bliver det store problem foreløbig Mvh Malene Thyssen 6. aug 2004 kl. 22:51 (CEST)

Jeg støtter et skift til UTF-8. Jeg har planer om at lave et program som kan lave forskellige former for statistikker (bl.a. en hierakisk oversigt over kategorier som viser antal artikler i kategorierne) og fejl (såsom selvreferencer via redirect-sider), og det vil umiddelbart blive lettere med en UTF-8-database.
Der er en ting man skal være opmærksom på i forbindelse med UTF-8: Det samme ord kan i visse tilfælde kodes på flere forskellige måder, så derfor bør input "normaliseres" efter et bestemt system (en såkaldt "normalization form" som der er flere at vælge imellem) for at undgå problemer ved søgninger og henvisninger. Er der taget højde for det? Byrial 8. aug 2004 kl. 10:16 (CEST)
Det er vist ikke længere nødvendigt at du laver en hierakisk oversigt over kategorierne. Peter Gervai lavede den i forgårs. Jeg har kørt den igennem vores kategorier, og placeret resultatet under Wikipedia:Kategorioversigt. Men du er selvfølgelig velkommen til at hjælpe med forbedringer. --Christian List 10. aug 2004 kl. 20:06 (CEST)
Den ser fin ud - jeg havde dog tænkt også at lave en optælling af alle artikler i en eller flere underkategorier (rekursivt), således at man for eksempel nemt kan se hvor mange personbeskrivelser der er i alt. Hvor er det rette forum for diskussion af den type programmer, og hvor er Peter Gervai og hans program? Byrial 12. aug 2004 kl. 20:07 (CEST)
Det er her: http://sourceforge.net/projects/pywikipediabot/ --Christian List 8. sep 2004 kl. 15:17 (CEST)

Nu har folk haft over en måned til at komme med invendinger mod at skifte til UTF-8 men jeg kan kun se positive tilkendegivelser, så jeg tror det er ved at være tid til at sætte i gang. Men hvilken dag ville være god at foreslå som en dag hvor konverteringen kan finde sted? Det kræver sandsynligvis noget tilpasning når konverteringen er gennemført, så det skal helst være på et tidspunkt hvor der er nogen stykker der kan hjælpe med at rette eventuelle problemer. Jeg kan se at der er flest aktive i weekenderne, men jeg er selv mest aktiv på hverdage. Hvis jeg skulle vælge helt egocentrisk ville jeg vælge mandag den 13. september kl. 15:00 dansk tid (forudsat at vi kan få en af dem med root access til at foretage opdateringen på det tidspunkt).

--Christian List 8. sep 2004 kl. 15:17 (CEST)

Hej Christian. Jeg kan godt logge på mandag den 13. omkring kl. 15.00. Lille Rasmus plejer at sove til middag deromkring og så har jeg, hvis jeg er heldig, omkring en time uforstyrret tid. Når han vågner igen bliver jeg desværre noget ukoncentreret, da den lille bandit er nået til at kunne bevæge sig på to ben, så han kan nå næsten alt, jeg skal næsten have øjne i nakken hvis jeg skal sidde ved computeren når han møvler omkring ;-) Men jeg skal nok logge på og forsøge efter bedste evne at følge med. Mandag aften når den lille er lagt i seng kan jeg være med for fuld kraft igen :-) Mvh Malene Thyssen 8. sep 2004 kl. 22:16 (CEST)
Det tidspunkt vil passe mig fint (er heller ikke særlig aktiv i weekenderne). - Kåre Thor Olsen (Kaare) 8. sep 2004 kl. 22:19 (CEST)
Fint, jeg har bedt om en konvertering på mandag kl. 15:00 her http://mail.wikipedia.org/pipermail/wikitech-l/2004-September/025147.html --Christian List 9. sep 2004 kl. 22:01 (CEST)
Hvorfor ikke omkring klokken et på lørdagsnåtten? ( http://wikimedia.org/stats/da.wikipedia.org//hourly_usage_200408.png , http://wikimedia.org/stats/da.wikipedia.org//daily_usage_200409.png ) -- Ævar Arnfjörð Bjarmason 9. sep 2004 kl. 22:18 (CEST)

Hej Christian. Er vi gået over til det nye UTF-8 system nu? Mvh Malene Thyssen 13. sep 2004 kl. 16:32 (CEST)

Jeg er ikke Christian, men tror det ikke, jf. Shaihuluds svar på Christians "bestilling". - Kåre Thor Olsen (Kaare) 13. sep 2004 kl. 16:36 (CEST)
Jeg er heller ikke Christian, men, ja, vi bruger stadig iso-8859-1. Byrial 13. sep 2004 kl. 16:47 (CEST)
Hmm ok så må vi bare håbe vi er nogen stykker på når det sker, hvis der skulle være noget ekstraarbejde i den forbindelse. Mvh Malene Thyssen 13. sep 2004 kl. 18:06 (CEST)
Det trækker åbenbart lidt ud, men jeg håber da snart en eller anden får tid til at konvertere. --Christian List 1. okt 2004 kl. 16:43 (CEST)