Do the sequences in reference databases contain ambiguous N bases? if yes then why is it advised to remove ambiguous bases in quality filtering before mapping to reference??
Porque en el trabajo con las informaciones geoespaciales se distingue una característica que implica cierto grado de incertidumbre al referirse a un mismo objeto o fenómeno incluso con diferentes nombres, números e inclusos formas de representar… sin embargo como la información geoespacial es condicionada por su ubicación y distribución en el espacio y en el tiempo se hace necesario filtrar por un conjunto de criterios o condiciones que eliminen o atenúen este problema porque si se ejecuta una consulta o análisis en el que se implique cualquier elemento (espacio-tiempo) se obtienen datos absurdos e incoherentes.
Así se logra que para un mismo fenómeno conocido por diferentes nombres por ejemplo que se repite frecuentemente en el tiempo y aproximadamente en la misma zona geográfica puedas construir una base de datos de una secuencia georreferenciada en el espacio y en el tiempo.
Además, se conoce una técnica de representación de secuencias propuesta por Kraak, M (Geographic Visualization Concepts, Tools and Applications) en el dominio espacio tiempo que le recomiendo revisar para evaluar su representación espacial de datos si es que tiene una dependencia histórica en el dominio del tiempo.
A researcher told me that at the human genome sequence they used 5 individuals, because of heterozygotes the nucleotide assignment was based on the more frequent allele. He said it is more important sequence structure that any particular base.