English translation follows the Finnish text.)
Indeksi on liitteenä.
Miten indeksi tehtiin?
1. Imuroidaan Kansa Taisteli -lehdet (http://www.kansataisteli.sshs.fi)
2. Erotetaan jokainen sivu omaan tiedostoon.
3. Muutetaan pdf-sivut tavalliseksi tekstiksi.
4. Poimitaan tekstistä kaikki sanat, jotka alkavat isolla kirjaimella,
muutetaan ne perusmuotoon (yksikön nominatiivi)
ja erotetaan niistä paikannimet.
Sana on paikannimi, jos
(a) se on minun paikannimilistassani, tai
(b) jos se on yhdyssana, joka loppuu paikannimissä yleiseen
sanaan, kuten ViipurinLAHTI tai TeikarSAARI.
Huomatkaa, että jotkut paikannimet ovat tavallisia sanoja tai
sukunimiä (esim. Lahti on molempia) ja että kaikki kohdan (b) sanat
eivät ole paikannimiä, mutta ne ovat tässä indeksissä.
Olen myös käyttänyt sumeaa hakua, joten indeksissä saattaa olla
sanoja, joita ei ole lehdissä. Sumea haku on saattanut muuttaa jonkin
merkkijonon sanaksi, joka sopii kohtaan (a) tai (b).
Yksi virhelähde on pdf:n muunnos tekstiksi. Se ei ole täydellinen enkä
ole oikolukenut tekstiä. Siispä indeksissä on kirjoitusvirheitä ja
kaikkia paikannimiä ei ole tunnistettu (mutta sumea haku auttaa).
Formaatti on vuosi-numero/sivu(t).
======================================================
Index is in attachment.
How did I do it?
1. Download Kansa Taisteli magazines (http://www.kansataisteli.sshs.fi).
2. Extract each page to separate file.
3. Convert pdf pages to text.
4. Pick all words that start with a capital letter from these files,
convert them into base form (nominative sigular, e.g. "Lahdessa"
becomes "Lahti"), and keep only the place names.
Word is a place name if
(a) it is in my place name list, or
(b) it is a compound word that ends with a word that is common
in place names, like ViipurinLAHTI or TeikarSAARI.
Note that some place names are also ordinary words and/or surnames
(e.g. Lahti is both), and all words in group (b) are not place names,
but they are in this index.
Also, I have used fuzzy matching so this index may contain words that
are not in the magazines. Fuzzy matching may have converted some
character string to a word that matches (a) or (b).
Another source of errors is pdf-to-text conversion. It is not perfect
and I have not spellchecked the result. So the index has spelling
errors and all place names are not recognized (but fuzzy matching
helps).
Format is year-issue/page(s).
Kansa Taisteli - paikannimihakemisto - place name index
Kansa Taisteli - paikannimihakemisto - place name index
- Attachments
-
- Kansa-Taisteli-paikat.pdf
- (566.86 KiB) Downloaded 109 times
- Juha Tompuri
- Forum Staff
- Posts: 11562
- Joined: 11 Sep 2002, 21:02
- Location: Mylsä
Re: Kansa Taisteli - paikannimihakemisto - place name index
Thank you.
Will be very useful.
And for those that have not seen your previous work:
Kansa Taisteli -- sukunimihakemisto -- surname index -- A-Ö
Regards, Juha
Will be very useful.
And for those that have not seen your previous work:
Kansa Taisteli -- sukunimihakemisto -- surname index -- A-Ö
Regards, Juha
- Aleksander P
- Member
- Posts: 128
- Joined: 18 Aug 2012, 22:15
- Location: Finland
Re: Kansa Taisteli - paikannimihakemisto - place name index
This too helps a great deal, thank you!