pylucene 3.5.0-3
[pylucene.git] / lucene-java-3.5.0 / lucene / contrib / analyzers / common / src / resources / org / apache / lucene / analysis / pt / portuguese.rslp
diff --git a/lucene-java-3.5.0/lucene/contrib/analyzers/common/src/resources/org/apache/lucene/analysis/pt/portuguese.rslp b/lucene-java-3.5.0/lucene/contrib/analyzers/common/src/resources/org/apache/lucene/analysis/pt/portuguese.rslp
new file mode 100644 (file)
index 0000000..24de065
--- /dev/null
@@ -0,0 +1,456 @@
+#  Steps file for the RSLP stemmer.
+
+# Step 1: Plural Reduction
+{  "Plural", 3, 1, {"s"},
+  # bons -> bom 
+  {"ns",1,"m"},
+  # balões -> balão
+  {"ões",3,"ão"},
+  # capitães -> capitão
+  {"ães",1,"ão",{"mães"}},
+  # normais -> normal
+  {"ais",1,"al",{"cais","mais"}},
+  # papéis -> papel
+  {"éis",2,"el"},
+  # amáveis -> amável
+  {"eis",2,"el"},
+  # lençóis -> lençol
+  {"óis",2,"ol"},
+  # barris -> barril
+  {"is",2,"il",{"lápis","cais","mais","crúcis","biquínis","pois","depois","dois","leis"}},
+  # males -> mal
+  {"les",3,"l"},
+  # mares -> mar
+  {"res",3,"r", {"árvores"}},
+  # casas -> casa
+  {"s",2,"",{"aliás","pires","lápis","cais","mais","mas","menos","férias","fezes","pêsames","crúcis","gás","atrás","moisés","através","convés","ês","país","após","ambas","ambos","messias", "depois"}}};
+
+# Step 2: Adverb Reduction
+{  "Adverb", 0, 0, {},
+  # felizmente -> feliz
+  {"mente",4,"",{"experimente"}}};
+  
+# Step 3: Feminine Reduction
+{  "Feminine", 3, 1, {"a","ã"},
+  # chefona -> chefão
+  {"ona",3,"ão",{"abandona","lona","iona","cortisona","monótona","maratona","acetona","detona","carona"}},
+  # vilã -> vilão
+  {"ã",2,"ão",{"amanhã","arapuã","fã","divã"}},
+  # professora -> professor
+  {"ora",3,"or"},
+  # americana -> americano
+  {"na",4,"no",{"carona","abandona","lona","iona","cortisona","monótona","maratona","acetona","detona","guiana","campana","grana","caravana","banana","paisana"}},
+  # sozinha -> sozinho
+  {"inha",3,"inho",{"rainha","linha","minha"}},
+  # inglesa -> inglês
+  {"esa",3,"ês",{"mesa","obesa","princesa","turquesa","ilesa","pesa","presa"}},
+  # famosa -> famoso
+  {"osa",3,"oso",{"mucosa","prosa"}},
+  # maníaca -> maníaco
+  {"íaca",3,"íaco"},
+  # prática -> prático
+  {"ica",3,"ico",{"dica"}},
+  # cansada -> cansado
+  {"ada",2,"ado",{"pitada"}},
+  # mantida -> mantido
+  {"ida",3,"ido",{"vida","dúvida"}},
+  {"ída",3,"ido",{"recaída","saída"}},
+  # prima -> primo
+  {"ima",3,"imo",{"vítima"}},
+  # passiva -> passivo
+  {"iva",3,"ivo",{"saliva","oliva"}},
+  # primeira -> primeiro
+  {"eira",3,"eiro",{"beira","cadeira","frigideira","bandeira","feira","capoeira","barreira","fronteira","besteira","poeira"}}};
+
+# Step 4: Augmentative/Diminutive Reduction
+{  "Augmentative", 0, 1, {},
+  # cansadíssimo -> cansad
+  {"díssimo",5},
+  # amabilíssimo -> ama
+  {"abilíssimo",5},
+  # fortíssimo -> fort
+  {"íssimo",3},
+  {"ésimo",3},
+  # chiquérrimo -> chiqu
+  {"érrimo",4},
+  # pezinho -> pe
+  {"zinho",2},
+  # maluquinho -> maluc
+  {"quinho",4,"c"},
+  # amiguinho -> amig
+  {"uinho",4},
+  # cansadinho -> cansad
+  {"adinho",3},
+  # carrinho -> carr
+  {"inho",3,"",{"caminho","cominho"}},
+  # grandalhão -> grand
+  {"alhão",4},
+  # dentuça -> dent
+  {"uça",4},
+  # ricaço -> ric
+  {"aço",4,"",{"antebraço"}},
+  {"aça",4},
+  # casadão -> cans
+  {"adão",4}, 
+  {"idão",4},
+  # corpázio -> corp
+  {"ázio",3,"",{"topázio"}},
+  # pratarraz -> prat
+  {"arraz",4},
+  {"zarrão",3},
+  {"arrão",4},
+  # bocarra -> boc
+  {"arra",3},
+  # calorzão -> calor
+  {"zão",2,"",{"coalizão"}},
+  # meninão -> menin
+  {"ão",3,"",{"camarão","chimarrão","canção","coração","embrião","grotão","glutão","ficção","fogão","feição","furacão","gamão","lampião","leão","macacão","nação","órfão","orgão","patrão","portão","quinhão","rincão","tração","falcão","espião","mamão","folião","cordão","aptidão","campeão","colchão","limão","leilão","melão","barão","milhão","bilhão","fusão","cristão","ilusão","capitão","estação","senão"}}};
+
+# Step 5: Noun Suffix Reduction
+{  "Noun", 0, 0, {},
+  # existencialista -> exist
+  {"encialista",4},
+  # minimalista -> minim
+  {"alista",5},
+  # contagem -> cont
+  {"agem",3,"",{"coragem","chantagem","vantagem","carruagem"}},
+  # gerenciamento -> gerenc
+  {"iamento",4},
+  # monitoramento -> monitor
+  {"amento",3,"",{"firmamento","fundamento","departamento"}},
+  # nascimento -> nasc
+  {"imento",3},
+  {"mento",6,"",{"firmamento","elemento","complemento","instrumento","departamento"}},
+  # comercializado -> comerci
+  {"alizado",4},
+  # traumatizado -> traum
+  {"atizado",4},
+  {"tizado",4,"",{"alfabetizado"}},
+  # alfabetizado -> alfabet
+  {"izado",5,"",{"organizado","pulverizado"}},
+  # associativo -> associ
+  {"ativo",4,"",{"pejorativo","relativo"}},
+  # contraceptivo -> contracep
+  {"tivo",4,"",{"relativo"}},
+  # esportivo -> esport
+  {"ivo",4,"",{"passivo","possessivo","pejorativo","positivo"}},
+  # abalado -> abal
+  {"ado",2,"",{"grado"}},
+  # impedido -> imped
+  {"ido",3,"",{"cândido","consolido","rápido","decido","tímido","duvido","marido"}},
+  # ralador -> ral
+  {"ador",3},
+  # entendedor -> entend
+  {"edor",3},
+  # cumpridor -> cumpr
+  {"idor",4,"",{"ouvidor"}},
+  {"dor",4,"",{"ouvidor"}},
+  {"sor",4,"",{"assessor"}},
+  {"atoria",5},
+  {"tor",3,"",{"benfeitor","leitor","editor","pastor","produtor","promotor","consultor"}},
+  {"or",2,"",{"motor","melhor","redor","rigor","sensor","tambor","tumor","assessor","benfeitor","pastor","terior","favor","autor"}},
+  # comparabilidade -> compar
+  {"abilidade",5},
+  # abolicionista -> abol
+  {"icionista",4},
+  # intervencionista -> interven
+  {"cionista",5},
+  {"ionista",5},
+  {"ionar",5},
+  # profissional -> profiss
+  {"ional",4},
+  # referência -> refer
+  {"ência",3},
+  # repugnância -> repugn
+  {"ância",4,"",{"ambulância"}},
+  # abatedouro -> abat
+  {"edouro",3},
+  # fofoqueiro -> fofoc
+  {"queiro",3,"c"},
+  {"adeiro",4,"",{"desfiladeiro"}},
+  # brasileiro -> brasil
+  {"eiro",3,"",{"desfiladeiro","pioneiro","mosteiro"}},
+  {"uoso",3},
+  # gostoso -> gost
+  {"oso",3,"",{"precioso"}},
+  # comercializaç -> comerci
+  {"alizaç",5},
+  {"atizaç",5},
+  {"tizaç",5},
+  {"izaç",5,"",{"organizaç"}},
+  # alegaç -> aleg
+  {"aç",3,"",{"equaç","relaç"}},
+  # aboliç -> abol
+  {"iç",3,"",{"eleiç"}},
+  # anedotário -> anedot
+  {"ário",3,"",{"voluntário","salário","aniversário","diário","lionário","armário"}},
+  {"atório",3},
+  {"rio",5,"",{"voluntário","salário","aniversário","diário","compulsório","lionário","próprio","stério","armário"}},
+  # ministério -> minist
+  {"ério",6},
+  # chinês -> chin
+  {"ês",4},
+  # beleza -> bel
+  {"eza",3},
+  # rigidez -> rigid
+  {"ez",4},
+  # parentesco -> parent
+  {"esco",4},
+  # ocupante -> ocup
+  {"ante",2,"",{"gigante","elefante","adiante","possante","instante","restaurante"}},
+  # bombástico -> bomb
+  {"ástico",4,"",{"eclesiástico"}},
+  {"alístico",3},
+  {"áutico",4},
+  {"êutico",4},
+  {"tico",3,"",{"político","eclesiástico","diagnostico","prático","doméstico","diagnóstico","idêntico","alopático","artístico","autêntico","eclético","crítico","critico"}},
+  # polêmico -> polêm
+  {"ico",4,"",{"tico","público","explico"}},
+  # produtividade -> produt
+  {"ividade",5},
+  # profundidade -> profund
+  {"idade",4,"",{"autoridade","comunidade"}},
+  # aposentadoria -> aposentad
+  {"oria",4,"",{"categoria"}},
+  # existencial -> exist
+  {"encial",5},
+  # artista -> art
+  {"ista",4},
+  {"auta",5},
+  # maluquice -> maluc
+  {"quice",4,"c"},
+  # chatice -> chat
+  {"ice",4,"",{"cúmplice"}},
+  # demoníaco -> demon
+  {"íaco",3},
+  # decorrente -> decorr
+  {"ente",4,"",{"freqüente","alimente","acrescente","permanente","oriente","aparente"}},
+  {"ense",5},
+  # criminal -> crim
+  {"inal",3},
+  # americano -> americ
+  {"ano",4},
+  # amável -> am
+  {"ável",2,"",{"afável","razoável","potável","vulnerável"}},
+  # combustível -> combust
+  {"ível",3,"",{"possível"}},
+  {"vel",5,"",{"possível","vulnerável","solúvel"}},
+  {"bil",3,"vel"},
+  # cobertura -> cobert
+  {"ura",4,"",{"imatura","acupuntura","costura"}},
+  {"ural",4},
+  # consensual -> consens
+  {"ual",3,"",{"bissexual","virtual","visual","pontual"}},
+  # mundial -> mund
+  {"ial",3},
+  # experimental -> experiment
+  {"al",4,"",{"afinal","animal","estatal","bissexual","desleal","fiscal","formal","pessoal","liberal","postal","virtual","visual","pontual","sideral","sucursal"}},
+  {"alismo",4},
+  {"ivismo",4},
+  {"ismo",3,"",{"cinismo"}}};
+
+# Step 6: Verb Suffix Reduction
+{  "Verb", 0, 0, {}, 
+  # cantaríamo -> cant
+  {"aríamo",2},
+  # cantássemo -> cant
+  {"ássemo",2},
+  # beberíamo -> beb
+  {"eríamo",2},
+  # bebêssemo -> beb
+  {"êssemo",2},
+  # partiríamo -> part
+  {"iríamo",3},
+  # partíssemo -> part
+  {"íssemo",3},
+  # cantáramo -> cant
+  {"áramo",2},
+  # cantárei -> cant
+  {"árei",2},
+  # cantaremo -> cant
+  {"aremo",2},
+  # cantariam -> cant
+  {"ariam",2},
+  # cantaríei -> cant
+  {"aríei",2},
+  # cantássei -> cant
+  {"ássei",2},
+  # cantassem -> cant
+  {"assem",2},
+  # cantávamo -> cant
+  {"ávamo",2},
+  # bebêramo -> beb
+  {"êramo",3},
+  # beberemo -> beb
+  {"eremo",3},
+  # beberiam -> beb
+  {"eriam",3},
+  # beberíei -> beb
+  {"eríei",3},
+  # bebêssei -> beb
+  {"êssei",3},
+  # bebessem -> beb
+  {"essem",3},
+  # partiríamo -> part
+  {"íramo",3},
+  # partiremo -> part
+  {"iremo",3},
+  # partiriam -> part
+  {"iriam",3},
+  # partiríei -> part
+  {"iríei",3},
+  # partíssei -> part
+  {"íssei",3},
+  # partissem -> part
+  {"issem",3},
+  # cantando -> cant
+  {"ando",2},
+  # bebendo -> beb
+  {"endo",3},
+  # partindo -> part
+  {"indo",3},
+  # propondo -> prop
+  {"ondo",3},
+  # cantaram -> cant
+  {"aram",2},
+  {"arão",2},
+  # cantarde -> cant
+  {"arde",2},
+  # cantarei -> cant
+  {"arei",2},
+  # cantarem -> cant
+  {"arem",2},
+  # cantaria -> cant
+  {"aria",2},
+  # cantarmo -> cant
+  {"armo",2},
+  # cantasse -> cant
+  {"asse",2},
+  # cantaste -> cant
+  {"aste",2},
+  # cantavam -> cant
+  {"avam",2,"",{"agravam"}},
+  # cantávei -> cant
+  {"ávei",2},
+  # beberam -> beb
+  {"eram",3},
+  {"erão",3},
+  # beberde -> beb
+  {"erde",3},
+  # beberei -> beb
+  {"erei",3},
+  # bebêrei -> beb
+  {"êrei",3},
+  # beberem -> beb
+  {"erem",3},
+  # beberia -> beb
+  {"eria",3},
+  # bebermo -> beb
+  {"ermo",3},
+  # bebesse -> beb
+  {"esse",3},
+  # bebeste -> beb
+  {"este",3,"",{"faroeste","agreste"}},
+  # bebíamo -> beb
+  {"íamo",3},
+  # partiram -> part
+  {"iram",3},
+  # concluíram -> conclu
+  {"íram",3},
+  {"irão",2},
+  # partirde -> part
+  {"irde",2},
+  # partírei -> part
+  {"irei",3,"",{"admirei"}},
+  # partirem -> part
+  {"irem",3,"",{"adquirem"}},
+  # partiria -> part
+  {"iria",3},
+  # partirmo -> part
+  {"irmo",3},
+  # partisse -> part
+  {"isse",3},
+  # partiste -> part
+  {"iste",4},
+  {"iava",4,"",{"ampliava"}},
+  # cantamo -> cant
+  {"amo",2},
+  {"iona",3},
+  # cantara -> cant
+  {"ara",2,"",{"arara","prepara"}},
+  # cantará -> cant
+  {"ará",2,"",{"alvará"}},
+  # cantare -> cant
+  {"are",2,"",{"prepare"}},
+  # cantava -> cant
+  {"ava",2,"",{"agrava"}},
+  # cantemo -> cant
+  {"emo",2},
+  # bebera -> beb
+  {"era",3,"",{"acelera","espera"}},
+  # beberá -> beb
+  {"erá",3},
+  # bebere -> beb
+  {"ere",3,"",{"espere"}},
+  # bebiam -> beb
+  {"iam",3,"",{"enfiam","ampliam","elogiam","ensaiam"}},
+  # bebíei -> beb
+  {"íei",3},
+  # partimo -> part
+  {"imo",3,"",{"reprimo","intimo","íntimo","nimo","queimo","ximo"}},
+  # partira -> part
+  {"ira",3,"",{"fronteira","sátira"}},
+  {"ído",3},
+  # partirá -> part
+  {"irá",3},
+  {"tizar",4,"",{"alfabetizar"}},
+  {"izar",5,"",{"organizar"}},
+  {"itar",5,"",{"acreditar","explicitar","estreitar"}},
+  # partire -> part
+  {"ire",3,"",{"adquire"}},
+  # compomo -> comp
+  {"omo",3},
+  # cantai -> cant
+  {"ai",2},
+  # cantam -> cant
+  {"am",2},
+  # barbear -> barb
+  {"ear",4,"",{"alardear","nuclear"}},
+  # cantar -> cant
+  {"ar",2,"",{"azar","bazaar","patamar"}},
+  # cheguei -> cheg
+  {"uei",3},
+  {"uía",5,"u"},
+  # cantei -> cant
+  {"ei",3},
+  {"guem",3,"g"},
+  # cantem -> cant
+  {"em",2,"",{"alem","virgem"}},
+  # beber -> beb
+  {"er",2,"",{"éter","pier"}},
+  # bebeu -> beb
+  {"eu",3,"",{"chapeu"}},
+  # bebia -> beb
+  {"ia",3,"",{"estória","fatia","acia","praia","elogia","mania","lábia","aprecia","polícia","arredia","cheia","ásia"}},
+  # partir -> part
+  {"ir",3,"",{"freir"}},
+  # partiu -> part
+  {"iu",3},
+  {"eou",5},
+  # chegou -> cheg
+  {"ou",3},
+  # bebi -> beb
+  {"i",3}};
+
+# Step 7: Vowel Removal 
+{  "Vowel", 0, 0, {}, 
+  {"bil",2,"vel"},
+  {"gue",2,"g",{"gangue","jegue"}},
+  {"á",3}, 
+  {"ê",3,"",{"bebê"}},
+  # menina -> menin
+  {"a",3,"",{"ásia"}},
+  # grande -> grand
+  {"e",3},
+  # menino -> menin
+  {"o",3,"",{"ão"}}};