Portada | Monotemáticos | Secciones | Desarrolladores | Comunidad | Servicios | Servicios profesionales
Desde 0 | HTML | CSS | ASP | PHP | AJAX | Javascript | Promoción de webs | Rentabilidad de webs
Directorio | Manuales | Scripts | FAQs | Programas | Artículos Copyleft | Actualidad | La Cosecha | Colabora
Registrarse | Vuestras páginas | Foros del web | Lista de correo | Boletín de novedades
Generador METAs | Compras | Busca cursos
Alojamiento | Dominios.es | Micropagos SMS | Buscadores | Patentes, marcas | Creación web | Multimedia | Videos
Desarrollo Freelance | Buscar proyectos | Buscar profesionales | Solicitar desarrollo

Consultas e índices de texto II


Continuación del articulo sobre las consultas y los índices de texto.


Utilizar el predicado CONTAINS

Puede usar el predicado CONTAINS para buscar una determinada frase en una base de datos. Por supuesto, dicha consulta puede escribirse con el predicado LIKE. Sin embargo, algunas formas de CONTAINS proporcionan mayor variedad de consultas de texto que la que se puede obtener con LIKE. Además, al contrario que cuando se utiliza el predicado LIKE, una búsqueda con CONTAINS no distingue entre mayúsculas y minúsculas.

Nota:Las consultas de búsqueda de texto se comportan de forma que no distinguen entre mayúsculas y minúsculas en aquellos idiomas (mayoritariamente los latinos) en los que tiene sentido distinguir entre mayúsculas y minúsculas. Sin embargo, en japonés, hay muchas ortografías fonéticas en las que el concepto de normalización ortográfica implica no distinguir las mayúsculas de las minúsculas (por ejemplo, las letras kana no tienen mayúsculas y minúsculas). Este tipo de normalización ortográfica no se admite.

Suponga que desea buscar en la base de datos Northwind la frase "bean curd". Si usa el predicado CONTAINS, ésta es una consulta bastante fácil.

USE Northwind USE Northwind
GO
SELECT Description
FROM Categories
WHERE Description LIKE '%bean curd%'
GO

O, con CONTAINS:

USE Northwind
GO
SELECT Description
FROM Categories
WHERE CONTAINS(Description, ' "bean curd" ')
GO

El predicado CONTAINS usa una notación funcional en la que el primer parámetro es el nombre de la columna que se está buscando y el segundo parámetro es una condición de búsqueda de texto. La condición de búsqueda, en este caso "bean curd", puede ser bastante compleja y está formada por uno o más elementos, que se describen posteriormente.

El predicado CONTAINS admite una sintaxis compleja para buscar en las columnas basadas en caracteres:

  • Una o más palabras y frases específicas (términos simples). Una palabra está compuesta por uno o más caracteres sin espacios ni signos de puntuación. Una frase válida consta de varias palabras con espacios y con o sin signos de puntuación entre ellas. Por ejemplo, croissant es una palabra y café au lait es una frase. Las palabras y frases como éstas se llaman términos simples.
  • Forma no flexionada de una palabra determinada (término de generación). Por ejemplo, buscar la forma no flexionada de la palabra "conducir". Si hay varias filas en la tabla que incluyen las palabras "conducir", "conduce", "condujo", "conduciendo" y "conducido", todas estarían en el conjunto de resultados porque cada una de estas palabras se puede generar de forma inflexiva a partir de la palabra "conducir".
  • Una palabra o frase en la que las palabras empiezan con un texto determinado (término prefijo). En el caso de una frase, cada palabra de la frase se considera un prefijo. Por ejemplo, el término "tran* auto" coincide con "transmisión automática" y "transductor de automóvil".
  • Palabras o frases que usan valores ponderados (término ponderado). Por ejemplo, podría desear encontrar una palabra que tuviera un peso designado superior a otra palabra. Devuelve resultados de consulta clasificados.
  • Una palabra o frase que esté cerca de otra palabra o frase (término de proximidad). Por ejemplo, podría desear encontrar las filas en las que la palabra "hielo" aparece cerca de la palabra "hockey" o en las que la frase "patinaje sobre hielo" se encuentra próxima a la frase "hockey sobre hielo".

Un predicado CONTAINS puede combinar varios de estos términos si usa AND y OR, por ejemplo, podría buscar todas las filas con "leche" y "café al estilo de Toledo" en la misma columna de base datos habilitada para texto . Además, los términos se pueden negar con el uso de AND NOT, por ejemplo, "pastel AND NOT queso de untar".

Cuando use CONTAINS, recuerde que SQL Server rechaza las palabras vacías de los criterios de búsqueda. Las palabras irrelevantes son aquellas como "un", "y", "es" o "el", que aparecen con frecuencia pero que, en realidad, no ayudan en la búsqueda de un texto determinado.

Utilizar el predicado FREETEXT

Con un predicado FREETEXT, puede escribir cualquier conjunto de palabras o frases, e incluso una frase completa. El motor de consultas de texto examina este texto, identifica todas las palabras y frases de nombres significativas y construye internamente una consulta con esos términos. En este ejemplo se usa un predicado FREETEXT en una columna llamada description.

FREETEXT (description, ' "The Fulton County Grand Jury said Friday an investigation of Atlanta's recent primary election produced no evidence that any irregularities took place." ')

El motor de búsqueda identifica palabras y frases nominales tales como las siguientes:

Palabras:

   Fulton, county, grand, jury, Friday, investigation, Atlanta, recent, primary, election, produce, evidence, irregularities

Frases:

    Fulton county grand jury, primary election, grand jury, Atlanta's recent primary election

Las palabras y frases de la cadena FREETEXT (y sus variaciones generadas de forma inflexiva) se combinan internamente en una consulta, ponderada para clasificarla adecuadamente y, a continuación, se realiza la búsqueda real.

Funciones de conjunto de filas CONTAINSTABLE y FREETEXTTABLE

Las funciones CONTAINSTABLE y FREETEXTTABLE se usan para especificar las consultas de texto que devuelve la clasificación por porcentaje de aciertos de cada fila. Estas funciones son muy similares a los predicados de texto CONTAINS y FREETEXT, pero se utilizan de forma diferente.

Los predicados de texto de las funciones

Aunque tanto los predicados de texto como las funciones de conjunto de filas de texto se usan para las consultas de texto y la instrucción TRANSACT-SQL usada para especificar la condición de búsqueda de texto es la misma en los predicados y en las funciones, hay importantes diferencias en la forma en la que éstas se usan:

  • CONTAINS y FREETEXT devuelven ambos el valor TRUE o FALSE, con lo que normalmente se especifican en la cláusula WHERE de una instrucción SELECT. CONTAINSTABLE y FREETEXTTABLE devuelven ambas una tabla de cero, una o más filas, con lo que deben especificarse siempre en la cláusula FROM.
  • CONTAINS y FREETEXT sólo se pueden usar para especificar los criterios de selección, que usa Microsoft® SQL SERVER para determinar la pertenencia al conjunto de resultados. CONTAINSTABLE y FREETEXTTABLE se usan también para especificar los criterios de selección. La tabla devuelta tiene una columna llamada KEY que contiene valores de claves de texto. Cada tabla de texto registrada tiene una columna cuyos valores se garantizan como únicos. Los valores devueltos en la columna KEY de CONTAINSTABLE o FREETEXTTABLE son los valores únicos, procedentes de la tabla de texto registrada, de las filas que coinciden con los criterios de selección en la condición de búsqueda de texto. Además, la tabla que producen CONTAINSTABLE y FREETEXTTABLE tiene una columna denominada RANK, que contiene valores de 0 a 1000. Estos valores se utilizan para ordenar las filas devueltas de acuerdo al nivel de coincidencia con los criterios de selección.

Las consultas que usan las funciones CONTAINSTABLE y FREETEXTTABLE son más complejas que las que usan los predicados CONTAINS y FREETEXT porque las filas que cumplen los criterios y que son devueltas por las funciones deben ser combinadas explícitamente con las filas de la tabla original de SQL SERVER.

Este ejemplo devuelve la descripción y el nombre de categoría de todas las categorías de alimentos en las que la columna Description contenga las palabras "sweet and savory" cerca de la palabra "sauces" o de la palabra "candies". Todas las filas cuyo nombre de categoría sea "Seafood" no se devuelven. Sólo se devuelven las filas cuyo valor de distancia sea igual o superior a 2.

USE Northwind
GO
SELECT FT_TBL.Description, FT_TBL.CategoryName, KEY_TBL.RANK
FROM Categories AS FT_TBL INNER JOIN
CONTAINSTABLE (Categories, Description,
'("sweet and savory" NEAR sauces) OR
("sweet and savory" NEAR candies)') AS KEY_TBL
ON FT_TBL.CategoryID = KEY_TBL.[KEY]
WHERE KEY_TBL.RANK > 2 AND FT_TBL.CategoryName <> 'Seafood'
ORDER BY KEY_TBL.RANK DESC

Este ejemplo devuelve la descripción y el nombre de categoría de las 10 categorías superiores de alimentos donde la columna Description contenga las palabras "sweet and savory" cerca de la palabra "sauces" o de la palabra "candies".

SELECT FT_TBL.Description, FT_TBL.CategoryName, KEY_TBL.RANK
FROM Categories AS FT_TBL INNER JOIN
CONTAINSTABLE (Categories, Description,
'("sweet and savory" NEAR sauces) OR
("sweet and savory" NEAR candies)', 10) AS KEY_TBL
ON FT_TBL.CategoryID = KEY_TBL.[KEY]


Comparación entre CONTAINSTABLE y CONTAINS

La función CONTAINSTABLE y el predicado CONTAINS utilizan condiciones de búsqueda similares.

Sin embargo, en CONTAINSTABLE se especifica la tabla en la que tendrá lugar la búsqueda de texto, la columna (o todas las columnas) de la tabla en las que se buscará y la condición de búsqueda. Un cuarto parámetro, opcional, hace posible que el usuario indique que se devuelva sólo el número más alto especificado de coincidencias. Para obtener más información, consulte la sección Limitar los conjuntos de resultados.

CONTAINSTABLE devuelve una tabla que incluye una columna denominada RANK. Esta columna RANK contiene un valor para cada fila que indica el grado de coincidencia de cada fila con los criterios de selección.

En esta consulta se especifica la utilización de CONTAINSTABLE para devolver un valor de clasificación por cada fila.

USE Northwind
GO
SELECT K.RANK, CompanyName, ContactName, Address
FROM Customers AS C
INNER JOIN
CONTAINSTABLE(Customers,Address,
'ISABOUT ("des*", Rue WEIGHT(0.5), Bouchers WEIGHT(0.9))') AS K
ON C.CustomerID = K.[KEY]

Comparación entre FREETEXTTABLE y FREETEXT

En la consulta siguiente se amplía una consulta FREETEXTTABLE para que devuelva primero las filas con clasificación superior y agregue la clasificación de cada fila a la lista de selección. Para especificar la consulta, debe saber que CategoryID es la columna de clave única de la tabla Categories.

USE Northwind
GO
SELECT KEY_TBL.RANK, FT_TBL.Description
FROM Categories AS FT_TBL
INNER JOIN
FREETEXTTABLE(Categories, Description,
'How can I make my own beers and ales?') AS KEY_TBL
ON FT_TBL.CategoryID = KEY_TBL.[KEY]
ORDER BY KEY_TBL.RANK DESC
GO


La única diferencia en la sintaxis de FREETEXTTABLE y FREETEXT es la inserción del nombre de la tabla como el primer parámetro.

Esto es una ampliación de la misma consulta que sólo devuelve las filas con un valor de clasificación de 10 o superior:

USE Northwind
GO
SELECT KEY_TBL.RANK, FT_TBL.Description
FROM Categories FT_TBL
INNER JOIN
FREETEXTTABLE (Categories, Description,
'How can I make my own beers and ales?') AS KEY_TBL
ON FT_TBL.CategoryID = KEY_TBL.[KEY]
WHERE KEY_TBL.RANK >= 10
ORDER BY KEY_TBL.RANK DESC
GO


Identificación del nombre de la columna de la clave única

Las consultas que usan funciones que toman valores de conjuntos de filas son complicadas porque es necesario saber el nombre de la columna de clave exclusiva. Cada tabla habilitada para texto tiene la propiedad TableFulltextKeyColumn que contiene el número de ID de la columna que ha sido seleccionada para tener filas únicas en la tabla. En este ejemplo se muestra cómo se puede obtener el nombre de la columna de clave y usarse en la programación.

USE Northwind
GO
DECLARE @key_column sysname
SET @key_column = Col_Name(Object_Id('Categories'),
ObjectProperty(Object_id('Categories'),
'TableFulltextKeyColumn')
)
print @key_column
EXECUTE ('SELECT Description, KEY_TBL.RANK
FROM Categories FT_TBL
INNER JOIN
FreetextTable (Categories, Description,
''How can I make my own beers and ales?'') AS KEY_TBL
ON FT_TBL.'
+ @key_column
+' = KEY_TBL.[KEY]
WHERE KEY_TBL.RANK >= 10
ORDER BY KEY_TBL.RANK DESC
')
GO


Puede evitar la complejidad de la utilización de CONTAINSTABLE y FREETEXTTABLE si escribe procedimientos almacenados que acepten unos cuantos supuestos acerca de la consulta y, a continuación, creen y ejecuten la consulta adecuada. A continuación se muestra un procedimiento simplificado que emite una consulta FREETEXTTABLE. La tabla muestra los parámetros del procedimiento (todas las entradas).

ParámetrosOpcionalDescripción
@additional_predicatesOpcionalSi hay algún predicado adicional, éste se agrega con AND detrás del predicado FREETEXT. KEY_TBL.RANK se puede usar en expresiones.
@freetext_columnSI
@freetext_searchSICondición de Búsqueda
@from_tableSI
@order_by_listOpcionalKEY_TBL.RANK puede ser una de las columnas especificadas.
@select_listSI KEY_TBL.RANK puede ser una de las columnas especificadas.

El código del procedimiento es el siguiente:

CREATE PROCEDURE freetext_rank_proc
@select_list nvarchar(1000),
@from_table nvarchar(517),
@freetext_column sysname,
@freetext_search nvarchar(1000),
@additional_predicates nvarchar(500) = '',
@order_by_list nvarchar(500) = ''
AS
BEGIN
DECLARE @table_id integer,
@unique_key_col_name sysname,
@add_pred_var nvarchar(510),
@order_by_var nvarchar(510)

-- Get the name of the unique key column for this table.
SET @table_id = Object_Id(@from_table)
SET @unique_key_col_name =
Col_Name( @table_id,
ObjectProperty(@table_id, 'TableFullTextKeyColumn') )

-- If there is an additional_predicate, put AND() around it.
IF @additional_predicates <> ''
SET @add_pred_var = 'AND (' + @additional_predicates + ')'
ELSE
SET @add_pred_var = ''

-- Insert ORDER BY, if needed.
IF @order_by_list <> ''
SET @order_by_var = 'ORDER BY ' + @order_by_var
ELSE
SET @order_by_var = ''

-- Execute the SELECT statement.
EXECUTE ( 'SELECT '
+ @select_list
+ ' FROM '
+ @from_table
+ ' AS FT_TBL, FreetextTable('
+ @from_table
+ ','
+ @freetext_column
+ ','''
+ @freetext_search
+ ''') AS KEY_TBL '
+ 'WHERE FT_TBL.'
+ @unique_key_col_name
+ ' = KEY_TBL.[KEY] '
+ @add_pred_var
+ ' '
+ @order_by_var
)
END


Este procedimiento se puede usar para emitir la consulta:

USE Northwind
GO
EXECUTE freetext_rank_proc
'Description, KEY_TBL.RANK', -- Select list
'Categories', -- From
'Description', -- Column
'How can I make my own beers and ales?', -- Freetext search
'KEY_TBL.RANK >= 10', -- Additional predicate
'KEY_TBL.RANK DESC' -- Order by
GO


Limitar los conjuntos de resultados

En muchas consultas de texto, el número de elementos que coinciden con la condición de búsqueda es muy grande. Para evitar que las consultas devuelvan demasiadas coincidencias, utilice el argumento opcional, top_n_by_rank, en CONTAINSTABLE y FREETEXTTABLE para especificar el número de coincidencias, ordenadas, que desea que se devuelvan.

Con esta información, Microsoft® SQL SERVER ordena las coincidencias y devuelve sólo hasta completar el número especificado. Esta opción puede aumentar significativamente el rendimiento. Por ejemplo, una consulta que por lo general devolvería 100.000 filas de una tabla de 1 millón se procesará de forma más rápida si sólo se piden las 100 primeras filas.

Si sólo se desea que se devuelvan las 3 coincidencias mayores del ejemplo anterior, mediante CONTAINSTABLE, la consulta tendrá esta forma:

USE Northwind
GO
SELECT K.RANK, CompanyName, ContactName, Address
FROM Customers AS C
INNER JOIN
CONTAINSTABLE(Customers,Address, 'ISABOUT ("des*",
Rue WEIGHT(0.5),
Bouchers WEIGHT(0.9))', 3) AS K
ON C.CustomerID = K.[KEY]


Buscar palabras o frases con valores ponderados (término ponderado)

Puede buscar palabras o frases y especificar un valor ponderado. El peso, un número entre 0,0 y 1,0, indica el grado de importancia de cada palabra o frase en un conjunto de palabras y frases. El valor 0,0 es el peso más pequeño disponible, y el valor 1,0 es el peso más grande. Por ejemplo, en esta consulta se buscan todas las direcciones de los clientes, con valores ponderados, en los que cualquier texto que comience con la cadena "des" esté cerca de Rue o Bouchers. Microsoft® SQL SERVER™ da una clasificación superior a aquellas filas que contienen la mayor cantidad de palabras especificadas. Por tanto, SQL SERVER da una clasificación superior a una fila que contiene des Rue Bouchers que a una fila que contiene des Rue.

USE Northwind
GO
SELECT CompanyName, ContactName, Address
FROM Customers
WHERE CONTAINS(Address, 'ISABOUT ("*des*",
Rue WEIGHT(0.5),
Bouchers WEIGHT(0.9)
) ' )
GO


Un término ponderado se puede usar en conjunción con cualquiera de los otros cuatro tipos de términos.

Combinar predicados de texto con otros predicados de TRANSACT-SQL

Los predicados CONTAINS y FREETEXT se pueden combinar con el resto de predicados de TRANSACT-SQL, como, por ejemplo, LIKE y BETWEEN; también se pueden usar en una subconsulta. En este ejemplo se buscan descripciones cuya categoría no sea Seafood y que contengan la palabra "sauces" y la palabra "seasonings".

USE Northwind
GO
SELECT Description
FROM Categories
WHERE CategoryName <> 'Seafood' AND
CONTAINS(Description, ' sauces AND seasonings ')
GO


En la siguiente consulta se usa CONTAINS dentro de una subconsulta. Con la base de datos pubs, la consulta obtiene el valor del título de todos los libros de la tabla titles del publicador que se encuentra próximo al platillo volante de Moonbeam, Ontario. (Esta información acerca del publicador se encuentra en la columna pr_info de la tabla pub_info y sólo hay uno de estos publicadores.)

USE pubs
GO
-- Add some interesting rows to some tables.
INSERT INTO publishers
VALUES ('9970', 'Penumbra Press', 'Moonbeam', 'ON', 'Canada')
INSERT INTO pub_info (pub_id, pr_info)
VALUES ('9970',
'Penumbra press is located in the small village of Moonbeam. Moonbeam is well known as the flying saucer capital of Ontario. You will often find one or more flying saucers docked close to the tourist information centre on the north side of highway 11.')

INSERT INTO titles
VALUES ('FP0001', 'Games of the World', 'crafts', '9970', 9.85,
0.00, 20, 213, 'A crafts book! A sports book! A history book! The fun and excitement of a world at play -
beautifully described and lavishly illustrated', '1977/09/15')
GO
-- Given the full-text catalog for these tables is pubs_ft_ctlg,
-- repopulate it so new rows are included in the full-text indexes.
sp_fulltext_catalog 'pubs_ft_ctlg', 'start_full'
WAITFOR DELAY '00:00:30' -- Wait 30 seconds for population.
GO
-- Issue the query.
SELECT T.title, P.pub_name
FROM publishers P,
titles T
WHERE P.pub_id = T.pub_id
AND P.pub_id = (SELECT pub_id
FROM pub_info
WHERE CONTAINS (pr_info,
' moonbeam AND
ontario AND
"flying saucer" '))
GO

Utilizar predicados de texto para consultar columnas de tipo IMAGE

Los predicados CONTAINS y FREETEXT pueden utilizarse para buscar columnas IMAGE indizadas.

En una sola columna IMAGE es posible almacenar muchos tipos de documentos. Microsoft® SQL SERVER™ admite ciertos tipos de documento y proporciona filtros para los mismos. Esta versión proporciona filtros para documentos de Office, archivos de texto y archivos HTML.

Cuando una columna IMAGE participa en un índice de texto, el servicio de texto comprueba las extensiones de los documentos de la columna IMAGE y aplica el filtro correspondiente, para interpretar los datos binarios y extraer la información de texto necesaria para la indización y la consulta.

Así, cuando configure la indización de texto sobre una columna IMAGE de una tabla, deberá crear una columna separada para que contenga la información relativa al documento. Esta columna de tipo debe ser de cualquier tipo de datos basado en caracteres y contendrá la extensión del archivo, como por ejemplo DOC para los documentos de Microsoft Word. Si el tipo de columna es NULL, el servicio de texto asumirá que el documento es un archivo de texto.

  • En el Asistente para indización de texto, si selecciona una columna IMAGE para la indización, deberá especificar también una Columna de enlace para que contenga el tipo de documento.
  • El procedimiento almacenado sp_fulltext_column acepta también un argumento para la columna que contendrá los tipos de documento.
  • El procedimiento almacenado sp_help_fulltext_columns devuelve también el nombre de columna y el Id. de columna de la columna de tipo de documento.

Una vez indizada, podrá consultar la columna IMAGE como lo haría con cualquier otra columna de la tabla, mediante los predicados CONTAINS y FREETEXT.

 Seguir navegando a partir aquí:
+ 1 manual relacionado
+ 1 categoria relacionada

 Autoría, licencia y acciones sobre este artículo

Informe de Claudio*
URL: http://personal.lobocom.es/claudio/

Atención: Copyright. Este artículo no se puede reproducir sin la autorización expresa del autor.

* Para consultas técnicas utilizar la lista de correo.

Versión imprimible Versión imprimible del artículo
Enviar artículo por e-mail Enviar artículo por e-mail
Añadir un comentario al artículo Publicar un comentario del artículo

Manuales relacionados con este artículo
Dentro de Tutorial de SQL

Categorias relacionadas
A través de las categorías de nuestro directorio se pueden encontrar otro tipo de recursos relacionados con este artículo:
+ Entrar en SQL Server


 Comentarios de los visitantes
Aun no hemos recibido comentarios de este artículo.
Puedes ser el primero en enviar tu comentario.



Enlaces:
Maestrosdelweb
  Ir arriba

Manuales relacionados
+Tutorial de SQL
Categorías
+SQL Server

Lectura recomendada

Compra este libro en Agapea, la librería urgente a domicilio.

Tienda DesarrolloWeb

DesarrolloWeb.com | Copyright | Anunciese | Acerca de | Datos legales | Contacta | Por GuiarteMultimedia