Neural controller for the trajectory tracking control of an inertia wheel pendulum

Resumen

En este trabajo de investigación, se estudia el problema de control de seguimiento de trayectorias en un péndulo de rueda inercial. Los resultados son presentados de una forma constructiva. Primero, se obtiene un controlador basado en el modelo utilizando la técnica de linealización por retroalimentación de salida. Posteriormente, el controlador es rediseñado al incorporar una red neuronal con el propósito de evitar el conocimiento de los parámetros exactos del péndulo de rueda inercial, y se obtiene un diseño robusto. Se usa un perceptrón de dos capas, cuyos pesos de salida son actualizados en tiempo real utilizando una ley de adaptación derivada del análisis de convergencia de las soluciones del sistema de lazo cerrado. El lema de Barbalat se utiliza para concluir que las trayectorias del error de seguimiento del péndulo convergen a cero. Se presentan simulaciones numéricas y experimentos en tiempo real, que confirman los resultados teóricos.

Abstract

In this paper, the problem of trajectory tracking control in an inertia wheel pendulum is studied. Results are presented in a constructive form. First, a model-based controller is obtained by using the output feedback linearization technique. Then, the controller is redesigned by incorporating a neural network with the aim of avoiding the exact parameters knowledge of the inertia wheel pendulum, obtaining a robust control scheme. A two-layer perceptron is used, whose output weights are updated in real-time using an adaption law derived from the analysis of convergence of the closed-loop system solutions. Barbalats lemma is used to conclude that the pendulum tracking error trajectory converges to zero. Numerical simulations and real-time experiments are presented, which confirm the theoretical results.

Palabras clave

Seguimiento de trayectorias ; Péndulo de rueda inercial ; Red neuronal ; Simulaciones numéricas ; Experimentos en tiempo real

Keywords

Trajectory tracking ; Inertia wheel pendulum ; Neural network ; Numerical simulations ; Real time experiments

1. Introducción

El péndulo de rueda inercial es un mecanismo sub-actuado [1] . En la figura 1 , se muestra un dibujo del péndulo de rueda inercial. El mecanismo está formado por un péndulo que tiene unida en su extremo una rueda, la cual es accionada por un motor de corriente directa (CD), cuyo eje de rotación es paralelo al eje de rotación del péndulo. En este mecanismo, el cambio del momento angular de la rueda se utiliza para controlar el movimiento del péndulo. La motivación del estudio del mecanismo es, principalmente, la enseñanza y la investigación de nuevos métodos de control no lineal, así como de aplicaciones de estabilización angular de algunos mecanismos, entre los cuales se encuentran los satélites [2] and [3] , las bicicletas robóticas [4] , [5] and [6] y la esfera robótica [7] . Estos mecanismos tienen integradas ruedas inerciales accionadas con motores eléctricos, de modo que el cambio de momento angular al aplicar un torque a cada rueda inercial se utiliza para controlar su dirección y orientación.

Figura 1.

Péndulo de rueda inercial.

Un reto en el control del péndulo de rueda inercial es estabilizarlo en la posición vertical superior o posición inestable. Este problema es conocido con el nombre de regulación. Otro reto es hacer que el péndulo siga una trayectoria de referencia, tanto en la posición vertical superior como en la posición vertical inferior. Un último problema, conocido como swing-up, es llevar el péndulo desde la posición vertical inferior hasta la posición vertical superior.

El problema de control de regulación y swing-up fue resuelto originalmente por Spong, Corke y Lozano [8] , utilizando los métodos de retroalimentación de estados y pasividad. Se han utilizado otros métodos de control para el swing-up y la regulación, como el control de la estructura variable [9] , [10] and [11] , el backstepping [12] y la regulación cuadrática lineal [12] and [14] , entre otros.

Este artículo se dedica a resolver el problema de seguimiento de las trayectorias del péndulo de una rueda inercial utilizando las redes neuronales. En la literatura, no se encontraron trabajos de investigación sobre el control del seguimiento de las trayectorias de un péndulo de rueda inercial utilizando redes neuronales, pero se encuentran algunos trabajos de investigación en que las redes neuronales se aplican para otros mecanismos similares. Aun así, son pocos los trabajos de investigación que presentan un estudio riguroso de estabilidad para controlar los mecanismos subaccionados utilizando redes neuronales. A continuación, se presentan algunos trabajos de investigación sobre el control de sistemas subaccionados que utilizan las redes neuronales o la lógica difusa.

En [15] , se presenta un controlador que resuelve el problema de swing-up y de regulación de un carro-péndulo en la posición superior. Se comparan dos controladores neuronales: uno utiliza funciones de activación en la capa oculta del tipo tangente hiperbólica y el otro, funciones gaussianas. En la capa de salida, los dos controladores utilizan funciones lineales. Cabe destacar que en [15] no se presentan estudios de convergencia.

En [16] , se describe un controlador neuronal de dos capas para estabilizar y garantizar el seguimiento de una trayectoria en un carro-péndulo en la posición vertical superior. Se considera que el modelo dinámico no es conocido. Se presenta un estudio teórico de la estimación de pesos de la red neuronal. Los resultados experimentales confirman la teoría propuesta.

En [17] , se propone un controlador neuronal recurrente. La red neuronal representa un esquema de control PID, el cual se aplica a un doble péndulo sobre un carro con el objetivo de estabilizarlo. Los pesos de la red neuronal se actualizan en tiempo real. Se presenta un análisis de estabilidad que se valida con los resultados experimentales.

En [18] , se presenta un controlador neuronal recurrente con el objetivo de estabilizar el péndulo en la posición vertical superior. Se consideran variaciones paramétricas en el sistema. Los resultados experimentales son satisfactorios, pero no se da un estudio de convergencia.

En [19] , también se utiliza un controlador basado en la lógica difusa para estabilizar el sistema carro-péndulo. Un problema similar se aborda en [20] para un sistema de doble péndulo sobre un carro y, en [21] , para un péndulo paralelo sobre un carro. Se estudia la estabilización del sistema en la posición superior, pero no se presenta ningún estudio de convergencia.

En [22] , se propone una metodología de estabilización y de seguimiento de las trayectorias utilizando controladores basados en la lógica difusa para un péndulo invertido sobre un carro de dos ruedas, y los resultados experimentales obtenidos avalan la teoría expuesta.

En [22] , se propone un controlador neuronal para el balanceo de una llanta utilizando el cambio de momento de dos ruedas inerciales, mientras que un tercer accionador mueve la llantas linealmente. Se presentan simulaciones para evaluar el desempeño del controlador y no se aporta ningún estudio de convergencia.

En este trabajo de investigación, se presenta primero un controlador basado en el modelo para garantizar el seguimiento de una trayectoria deseada en un péndulo de rueda inercial. Se introduce un análisis de la dinámica externa e interna del sistema de lazo cerrado. Posteriormente, se propone un nuevo esquema, que incorpora una red neuronal, con el propósito de evitar el conocimiento de los parámetros exactos del péndulo de rueda inercial, y se obtiene un diseño robusto. Se utiliza un perceptrón de dos capas, cuyos pesos de salida son actualizados en tiempo real. Se presentan simulaciones de los dos controladores para verificar la teoría expuesta y se muestran resultados de tiempo real del controlador neuronal.

El artículo se organiza de la forma siguiente: en la sección 2, se representa el modelo dinámico del péndulo; en la sección 3, se expone la problemática a resolver; en la sección 4, se presenta el desarrollo del controlador basado en el modelo y se realiza un estudio de la dinámica interna del péndulo; en la sección 5, se propone el controlador neuronal y se realiza un análisis de convergencia; en la sección 6, se presentan los resultados de simulación y los experimentos, y se discuten los resultados, y, por último, en la sección 7, se exponen las conclusiones que se derivan de la presente investigación.

2. Modelo dinámico del péndulo

El modelo dinámico del péndulo se obtiene de [1] , al cual se le ha sumado la fricción viscosa. El modelo se escribe a continuación

( 1)

( 2)

con posiciones angulares q₁ y q₂ . Además, τ es el torque aplicado a la rueda, g es la aceleración de gravedad, m₀ es la masa de la varilla del péndulo y m_ij , con i , j = 1, 2, son elementos de inercia. El coeficiente de fricción viscosa ${\textstyle f_{v1}}$ está presente en la unión del péndulo y la base, y ${\textstyle f_{v2}}$ en la rueda y el péndulo, respectivamente.

El modelo dinámico (1) -(2) también puede representarse en espacio de estado, de la forma

( 3)

( 4)

( 5)

( 6)

donde

con ${\textstyle \alpha =\left(m_{11}m_{22}-m_{12}^{2}\right)}$ y m₂₂ = m₁₂ .

3. Problemática a resolver

El problema es el diseño de un controlador neuronal τ (t ) que resuelva el seguimiento de una trayectoria de referencia q_d (t ) para el péndulo de rueda inercial en la posición inferior, manteniendo acotada la velocidad ${\textstyle {\dot {q}}_{2}(t)}$ de la rueda.

Se asume que q_d (t ) es, por lo menos, dos veces diferenciable y

( 7)

Así, definiendo el error de seguimiento de trayectoria como

( 8)

el control τ (t ) es tal que

( 9)

4. Controlador basado en el modelo

La dinámica del error de seguimiento se obtiene derivando la ecuación (8) dos veces respecto al tiempo. Se representa como

( 10)

( 11)

Redefiniendo los parámetros,

y, tomando como salida

( 12)

las ecuaciones (10) -(11) se escriben como

( 13)

( 14)

Se propone el siguiente controlador, basado en el modelo

( 15)

donde k_p , k_d , δ son ganancias de control positivas. Sustituyendo (15) en (14) , la dinámica del error de seguimento es

( 16)

( 17)

y la dinámica de la rueda es dada por

( 18)

( 19)

Las ecuaciones (16) -(17) y (18) -(19) representan el sistema en lazo cerrado. Se puede demostrar que y (t ) y ${\textstyle {\dot {y}}(t)}$ convergen a cero cuando el tiempo tiende a infinito, lo que implica, por (12) , que el límite (9) se satisface con el controlador basado en el modelo en (15) .

4.1. Dinámica interna

De acuerdo con el teorema 13.1 de Khalil [26] , el sistema dinámico dado por las ecuaciones (16) -(17) y (18) -(19) se puede representar, en la forma normal, con un cambio de variables, de la forma

( 20)

( 21)

( 22)

( 23)

tal que

se satisface, donde η = [η₁η₂ ]^T , ${\textstyle {\boldsymbol {z}}={\left[e_{1}{\mbox{ }}{\dot {e}}_{1}{\mbox{ }}q_{2}{\mbox{ }}{\dot {q}}_{2}\right]}^{T}}$ y g = [0 g₁ 0 g₂ ]^T . Entonces, derivando con respecto al tiempo (20) -(21) y usando las ecuaciones (16) -(19) , la dinámica interna es

( 24)

( 25)

El conjunto de ecuaciones (16) -(17) y (24) -(25) es la representación en la forma normal de (16) -(19) .

Dado que el controlador (15) garantiza que la salida y (t ) → 0 y ${\textstyle {\dot {y}}(t)\rightarrow 0}$ cuando t → ∞, entonces la dinámica cero es dada por

( 26)

( 27)

El resto de la discusión solo considera el estado η₂ (t ), que representa, de forma indirecta, la velocidad de la rueda ${\textstyle {\dot {q}}_{2}(t)}$ . Integrando (27) con respecto al tiempo desde 0 a t , se tiene que

( 28)

Escogiendo una trayectoria q_d (t ) tal que se satisfaga la condición (7) para todo t ≥ 0, entonces la solución η₂ (t ) de (28) satisface |η₂ (t )|< ∞. Por tanto, existen condiciones suficientes para que el estado η₂ (t ) de la dinámica interna (25) sea acotado, al menos para las condiciones iniciales, en un conjunto compacto que contiene el origen.

5. Control neuronal

En esta sección, se propone un controlador neuronal para el seguimiento de una trayectoria del péndulo de rueda inercial en la posición inferior del péndulo.

El sistema de ecuaciones (13) -(14) se puede representar como

( 29)

( 30)

donde

( 31)

Con el propósito de lograr el objetivo de control expresado en (9) , y considerando la función de salida en (12) , se propone el controlador neuronal siguiente

( 32)

donde α , δ > 0, y ${\textstyle {\overset {\mbox{ˆ}}{f}}({\boldsymbol {x}})}$ es una estimación de f (x ) obtenida por una red neuronal. La ventaja del controlador (32) es que evita la condición de conocer los parámetros físicos del péndulo de rueda inercial.

A continuación, se explica la deducción de la estimación ${\textstyle {\overset {\mbox{ˆ}}{f}}({\boldsymbol {x}})}$ . Primero, nótese que la función ${\textstyle f({\boldsymbol {x}}):{\mathbb {R} }^{4}\rightarrow \mathbb {R} }$ en (31) puede reexpresarse utilizando la propiedad de aproximación universal de las redes neuronales [24] and [25] ,

( 33)

donde ${\textstyle W\in {\mathbb {R} }^{L}}$ es el vector de pesos de salida ideales, ${\textstyle {\boldsymbol {\sigma }}=[{\sigma }_{1}{\mbox{ }}{\sigma }_{2}{\mbox{ }}\ldots {\sigma }_{L}]\in {\mathbb {R} }^{L}}$ es un vector que contiene funciones sigmoideas, ${\textstyle V\in {\mathbb {R} }^{5\times L}}$ denota la matriz de pesos de entrada, ${\textstyle \epsilon \in \mathbb {R} }$ es el error de aproximación de la red neuronal, ${\textstyle {\boldsymbol {x}}={\left[q_{1}{\mbox{ }}{\dot {q}}_{1}{\mbox{ }}{\dot {q}}_{2}{\mbox{ }}{\ddot {q}}_{d}\right]}^{T}\in {\mathbb {R} }^{4}}$ es el vector de señales de entrada a la red neuronal, ${\textstyle {\overline {\boldsymbol {x}}}={\left[1{\mbox{ }}{\boldsymbol {x}}^{T}\right]}^{T}\in {\mathbb {R} }^{5}}$ es el vector de señales de entrada aumentado y L es el número de neuronas de la red.

Se propone la función ${\textstyle {\overset {\mbox{ˆ}}{f}}({\boldsymbol {x}})}$ utilizando la estructura del lado derecho de la ecuación (33) del modo siguiente:

( 34)

donde ${\textstyle {\overset {\mbox{ˆ}}{W}}\in {\mathbb {R} }^{L}}$ es el vector de pesos de salida estimados de la red neuronal, ${\textstyle v_{ij}}$ son los elementos de la matriz V de pesos de entrada y vo_i es el valor de umbral de cada neurona en la capa oculta.

Los valores de ${\textstyle v_{ij}}$ y vo_i son seleccionados aleatoriamente y el vector de pesos de salida ${\textstyle {\overset {\mbox{ˆ}}{W}}(t)}$ se obtiene por medio de la siguiente ley de adaptación:

( 35)

donde ${\textstyle N{\boldsymbol {\in }}{\mathbb {R} }^{L\times L}}$ es una matriz diagonal definida positiva y κ > 0. Cabe mencionar que la ley de adaptación de pesos (35) se obtiene del análisis de convergencia de las soluciones del sistema de lazo cerrado, el cual se presentará más adelante.

El diagrama del controlador neuronal (32) se ilustra en la figura 2 .

Figura 2.

Diagrama del controlador neuronal.

Como ya se ha mencionado, el propósito de la red neuronal ${\textstyle {\overset {\mbox{ˆ}}{f}}({\boldsymbol {x}})}$ expresada por (34) es aproximar la función f (x ) en (31) y, de esta forma, evitar el conocimiento de los parámetros del péndulo de rueda inercial en la ley de control. De forma adicional, la compensación neuronal en el controlador propuesto (32) conduce a un sistema de lazo cerrado del cual se extrae la conclusión de que el error de seguimiento e₁ (t ) = q_d (t ) − q₁ (t ) tiende a cero en forma asintótica, como se verá más adelante.

La arquitectura de la red neuronal ${\textstyle {\overset {\mbox{ˆ}}{f}}({\boldsymbol {x}})}$ en (34) es un perceptrón de dos capas, en donde los pesos de entrada son aleatorios y los pesos de salida son ajustados en tiempo real, utilizando (35) . Nótese que el entrenamiento de la red neuronal no es supervisado. A medida que el tiempo va transcurriendo, la red neuronal va actualizando sus pesos, aprendiendo así la dinámica del péndulo en tiempo real.

Sustituyendo (32) en (30) , la dinámica del error de seguimiento de las ecuaciones (29) -(30) se reescribe de la forma siguiente:

( 36)

( 37)

donde ${\textstyle {\tilde {W}}=W-{\overset {\mbox{ˆ}}{W}}}$ es el error de pesos de salida de la red neuronal.

Dado que ${\textstyle {\dot {\tilde {W}}}=-{\dot {\overset {\mbox{ˆ}}{W}}}}$ y los pesos ideales W son constantes, con ||W || ≤ μ , la dinámica de error de pesos de salida es

( 38)

El sistema en lazo cerrado es definido por las ecuaciones (24) -(25) , (36) -(37) y (38) .

Primero se prueba que se satisface el límite (9) . Se propone la función definida positiva

V={\frac {1}{2}}{\left[{\begin{array}{c}y\\{\dot {y}}\end{array}}\right]}^{T}\left[{\begin{array}{cc}k_{p}&\alpha {\theta }_{1}\\\alpha {\theta }_{1}&{\theta }_{1}\end{array}}\right]\left[{\begin{array}{c}y\\{\dot {y}}\end{array}}\right]+{\frac {1}{2}}{\tilde {W}}^{T}N^{-1}{\tilde {W}},

donde

( 39)

garantiza que V sea definida positiva.

Derivando V con respecto al tiempo,

( 40)

Sustituyendo (38) en (40) y simplificando,

{\dot {V}}=-{\left[{\begin{array}{c}y\\{\dot {y}}\end{array}}\right]}^{T}\left[{\begin{array}{cc}\alpha k_{p}&{\frac {1}{2}}\alpha k_{d}\\{\frac {1}{2}}\alpha k_{d}&k_{d}-\alpha {\theta }_{1}\end{array}}\right]\left[{\begin{array}{c}y\\{\dot {y}}\end{array}}\right]

\leq -{\left[{\begin{array}{c}y\\{\dot {y}}\end{array}}\right]}^{T}\left[{\begin{array}{cc}\alpha k_{p}&{\frac {1}{2}}\alpha k_{d}\\{\frac {1}{2}}\alpha k_{d}&k_{d}-\alpha {\theta }_{1}\end{array}}\right]\left[{\begin{array}{c}y\\{\dot {y}}\end{array}}\right]

\leq -{\left[{\begin{array}{c}y\\{\dot {y}}\end{array}}\right]}^{T}\left[{\begin{array}{cc}\alpha k_{p}&{\frac {1}{2}}\alpha k_{d}\\{\frac {1}{2}}\alpha k_{d}&k_{d}-\alpha {\theta }_{1}\end{array}}\right]\left[{\begin{array}{c}y\\{\dot {y}}\end{array}}\right]

Es posible deducir que ${\textstyle {\dot {V}}\leq 0}$ si se cumplen la condiciones

( 41)

( 42)

Entonces, para que V sea definida positiva y ${\textstyle {\dot {V}}}$ semidefinida negativa, hay que satisfacer (39) , (41) y (42) . Nótese que (39) y (42) pueden reformularse como

( 43)

Estas condiciones implican que las soluciones ${\textstyle y(t),\quad {\dot {y}}(t)\in \mathbb {R} }$ y ${\textstyle {\tilde {W}}(t)\in {\mathbb {R} }^{L}}$ son acotadas.

Por el lema de Barbalat [26] ,

lo que implica, por (12) , que se satisface el límite (9) . Considerando el análisis de la sección 4.1, la solución η₂ (t ) es acotada para todo t ≥ 0.

6. Resultados

En esta sección, se muestran simulaciones de los dos controladores: el basado en el modelo en (15) y el neuronal en (32) . También se presentan experimentos en tiempo real del controlador neuronal en (32) para el seguimiento de una trayectoria deseada del péndulo.

6.1. Sistema experimental

Se cuenta con una plataforma experimental del péndulo de rueda inercial, construida en CITEDI-IPN.

La plataforma está formada por:

Un PC con 2 GB de RAM.
Una tarjeta de adquisición de datos Sensoray 626.
Un codificador óptico US Digital S1-1000-236-IE-B-D para medir la posición del péndulo.
Un servomotor Pittman, modelo 8222S003, con codificador integrado, que se utiliza como accionador y sensor de la posición de la rueda.
Un servoamplificador, modelo 12A8, de Advanced Motion & Controls, para dar potencia al servomotor.

El PC trabaja con el sistema operativo Windows XP y tiene instalado Matlab 2007a y Simulink , el cual se comunica con la tarjeta de adquisición de datos por medio de Real-Time Windows Target , con una frecuencia de muestreo de 1 [kHz].

Se ha considerado que la entrada de control al sistema es el voltaje de entrada al servoamplificador ${\textstyle v(t)}$ , tal como se muestra en la figura 3 . Sin pérdida de generalidad y despreciando la dinámica eléctrica del motor, es posible considerar que

Ello significa que la ganancia del servoamplificador se incorpora a la del sistema (1) -(2) .

Figura 3.

Descripción del sistema experimental, donde se considera que el voltaje de entrada al servoamplificador ${\textstyle v(t)}$ es la entrada de control. Sin pérdida de generalidad, se ha considerado ${\textstyle v(t)=\tau (t)}$ .

Partiendo de esta consideración, en la tabla 1 se indica la estimación de los valores de los parámetros utilizados en el modelo del péndulo de rueda inercial, los cuales se obtuvieron siguiendo un método de identificación paramétrica de mínimos cuadrados [27] and [28] . Como la identificación del sistema incluye el servoamplificador y el motor, la acción de control será, en adelante, el voltaje ${\textstyle v(t)}$ .

Tabla 1. Parámetros identificados.
Símbolo	Valor	Unidades
θ1	0.6656	Vrad/s2
θ2	0.0043	Vrad/s
θ3	0.0093	Vrad/s
θ4	5.0877	Vm/s2
θ5	0.0015	Vrad/s2

6.2. Resultados de la simulación

El propósito de las simulaciones es comprobar los resultados teóricos, sin considerar las perturbaciones introducidas en el muestreo de las señales de posición y la discretización de los controladores. Es importante destacar que el controlador neuronal (32) , dada su capacidad adaptativa, no exige conocer los parámetros del modelo dinámico del péndulo para implementarlo, a diferencia del controlador basado en el modelo (15) , que sí requiere conocer de antemano los parámetros del sistema (1) -(2) .

Se propone la trayectoria de referencia

( 44)

para el controlador basado en el modelo en (15) y para el controlador neuronal en (32) , con valor de a = 0.25 [rad], ω = 7 [rad/s] y b = 3.1416 [rad]. La trayectoria (44) codifica una oscilación periódica con el péndulo hacia abajo. Las condiciones iniciales del péndulo de rueda inercial eran q₁ (0) = 3.14 [rad], q₂ (0) = 0 [rad], ${\textstyle {\dot {q}}_{1}(0)=0}$ [rad/s] y ${\textstyle {\dot {q}}_{2}(0)=0}$ [rad/s].

Se ha llevado a cabo una simulación utilizando el controlador basado en el modelo (15) , con ganancias

( 45)

La gráfica del voltaje aplicado ${\textstyle v(t)}$ a la rueda se muestra en la figura 4 y la evolución temporal de la posición del péndulo q₁ (t ) se muestra en la figura 5 .

Resultados de simulación: Voltaje de control v(t) obtenido para el controlador ...

Figura 4.

Resultados de simulación: Voltaje de control ${\textstyle v(t)}$ obtenido para el controlador basado en el modelo (15) y para el controlador neuronal propuesto (32) y (35) .

Figura 5.

Resultados de simulación: Evolución temporal de la posición del péndulo, obtenida para el controlador basado en el modelo (15) y para el controlador neuronal propuesto (32) y (35) .

Para el controlador neuronal dado en (32) , se utilizaron las ganancias en (45) , α = 1, N = diag₁₀ (100) y κ = 0.5. El número de neuronas en la capa oculta era L = 10. Las condiciones iniciales fueron las que se utilizaron en la simulación del controlador basado en el modelo (15) .

La figura 4 describe la acción de control ${\textstyle v(t)}$ aplicada a la rueda y la figura 5 ilustra la posición del péndulo q₁ (t ).

Con respecto a las simulaciones numéricas, para realizar una comparación justa del desempeño de los controladores, se propusieron ganancias de control similares. La selección de ganancias de control satisface las condiciones (41) y (43) , que aseguran de forma teórica la convergencia del error de seguimiento y (t ) = e₁ (t ) en (8) .

En la figura 5 , se observa que la trayectoria actual del péndulo q₁ (t ) tiende a la trayectoria deseada q_d (t ) cuando el tiempo se incrementa, lo cual implica, asimismo, que ambos controladores satisfacen el objetivo de control (9) , como ya se había predicho en la teoría.

Cabe mencionar también que las velocidades articulares ${\textstyle {\dot {q}}_{1}(t)}$ y ${\textstyle {\dot {q}}_{2}(t)}$ permanecieron acotadas.

6.3. Resultados experimentales

A continuación, se muestran los resultados experimentales para el controlador neuronal (32) . En la realización del experimento, se siguió la misma trayectoria q_d (t ) que en (44) , las mismas condiciones iniciales utilizadas en la simulación y las ganancias de control k_p = 10, k_d = 3, δ = 0.5, α = 0.1, N = diag₁₀ (20) y κ = 0.05.

Obsérvese que, en la implementación en tiempo real, las mediciones de posición son cuantizadas y el controlador es implementado en forma discreta, utilizando un período de muestreo de 1 × 10⁻³ [s]. Los resultados experimentales obtenidos se muestran en las figuras 6 -9 .

Resultados experimentales: Voltaje de control v(t) del controlador neuronal.

Figura 6.

Resultados experimentales: Voltaje de control ${\textstyle v(t)}$ del controlador neuronal.

Resultados experimentales: Aportación al voltaje v(t) de la acción PD, neuronal ...

Figura 9.

Resultados experimentales: Aportación al voltaje ${\textstyle v(t)}$ de la acción PD, neuronal y de función signo.

En la figura 6 , se muestra el voltaje de control aplicado ${\textstyle v(t)}$ ; en la figura 7 , se ilustran la posición articular q₁ (t ) y la trayectoria deseada q_d (t ).

Resultados experimentales: Evolución temporal de la posición q1(t) utilizando el ...

Figura 7.

Resultados experimentales: Evolución temporal de la posición q₁ (t ) utilizando el controlador neuronal.

Las velocidades articulares ${\textstyle {\dot {q}}_{1}(t)}$ y ${\textstyle {\dot {q}}_{2}(t)}$ están en la figura 8 . La figura 9 muestra las contribuciones individuales de voltaje de compensación neuronal, proporcional derivativo ${\textstyle -k_{p}y-k_{d}{\dot {y}}}$ y el término de función signo ${\textstyle -\delta sign(\alpha y+{\dot {y}})}$ que componen el controlador adaptable neuronal (32) .

Resultados experimentales: Evolución temporal de las velocidades q˙1(t) y q˙2(t) ...

Figura 8.

Resultados experimentales: Evolución temporal de las velocidades ${\textstyle {\dot {q}}_{1}(t)}$ y ${\textstyle {\dot {q}}_{2}(t)}$ utilizando el controlador neuronal.

Las limitaciones de la plataforma experimental no han permitido utilizar las ganancias obtenidas en simulación, por lo cual se han utilizado ganancias más pequeñas, con la finalidad de reducir el ruido de muestreo en el voltaje de control ${\textstyle v(t)}$ .

Además, se decidió hacer el experimento de la ganancia de adaptación de pesos de salida N = diag₁₀ (0.02), para 0 ≤ t < 2 [s], y N = diag₁₀ (20), para t ≥ 2 [s], con el fin de permitir que la aportación neuronal ${\textstyle {\overset {\mbox{ˆ}}{f}}({\boldsymbol {x}})}$ aportara valores de voltaje dentro de los límites físicos de la plataforma experimental, como puede verse en la figura 6 , para el voltaje de control ${\textstyle v(t)}$ , y en la figura 9 , para las contribuciones de la acción neuronal, proporcional derivativo ${\textstyle -k_{p}y-k_{d}{\dot {y}}}$ y el término de función signo ${\textstyle -\delta sign(\alpha y+{\dot {y}})}$ .

En la figura 9 , se observa que la aportación de la acción neuronal es mucho mayor que la acción PD después de 2 [s], lo que muestra la capacidad adaptativa de la red neuronal. En la figura 7 , se muestra que la posición q₁ (t ) sigue la trayectoria de referencia q_d (t ), a pesar de la discretización del controlador (32) y la medición cuantizada de los codificadores ópticos de las señales de posición q₁ (t ) y q₂ (t ), así como la derivada discreta utilizada para estimar las velocidades ${\textstyle {\dot {q}}_{1}(t)}$ y ${\textstyle {\dot {q}}_{2}(t)}$ .

Otra observación importante es que las velocidades ${\textstyle {\dot {q}}_{1}(t)}$ y ${\textstyle {\dot {q}}_{2}(t)}$ , que se ilustran en la figura 8 , permanecen acotadas.

7. Conclusiones

En este artículo, se ha utilizado la técnica de linealización por retroalimentación de salida para obtener un controlador basado en el modelo y un controlador neuronal.

Se han comparado los resultados de simulación de ambos controladores y se ha verificado que el error de seguimiento del péndulo converge a cero.

Adicionalmente, se han presentado resultados de tiempo real para el controlador neuronal, y se ha comprobado su capacidad para garantizar el seguimiento de las trayectorias del péndulo con precisión, lo cual, al mismo tiempo, indica robustez ante perturbaciones como la implementación en forma discreta y ruido de cuantización.

References

[1] I. Fantoni, R. Lozano; Non-Linear Control for Underactuated Mechanical Systems; Springer-Verlag, New York (2001)
[2] S.S. Nudehi, U. Farooq, A. Alasty, J. Issa; Satellite attitude control using three reaction wheels; 2008 American Control Conference, Seattle, WA, USA (2008), pp. 4850–4855
[3] R. E. Snider, “Attitude control of a satellite simulator using reaction wheels and a PID controller,” Ph.D. dissertation, Air Force Institute of Technology, Wright-Patterson Air Force Base, Ohio, USA, 2010.
[4] H.W. Kim, J.W. An, H.D. Yoo, J.M. Lee; Balancing control of bicycle robot using PID control; 13th Int. Conf. on Contr., Autom. and Syst (2013), pp. 145–147
[5] S. I. Lee, I. W. Han, J. O. Lee and J. M. Lee, “Balancing control of bicycle robot,” presented at the 3rd SPENALO Int. Symp., Bexco, Busan, Korea, 2011.
[6] A. Suebsomran; Balancing control of bicycle robot; IEEE Int. Conf. on Cyber Techn. in Autom., Contr., and Intell. Syst. (2012), pp. 69–73
[7] J. Biswas, B. Seth; Dynamic stabilisation of a reaction-wheel actuated wheel-robot; Int. J. of Factory Autom., Robot. and Soft Comput., 4 (Oct 2008), pp. 135–140
[8] M.W. Spong, P. Corke, R. Lozano; Nonlinear control of reaction wheel pendulum; Automatica, 37 (11) (Nov 2001), pp. 1845–1851
[9] L.T. Aguilar, I.M. Boiko, L.M. Fridman, L.B. Freidovich; Generating oscillations in inertia wheel pendulum via two relay controller; Int. J. of Robust and Nonlinear Contr., 22 (3) (Feb 2012), pp. 318–330
[10] Y. Tao, S. Hanxu, J. Qingxuan; Variable structure control of pendulum-driven spherical mobile; Int. Proc. of Comput. Sci. & Inform. Tech., 53 (2012), p. 32
[11] F. Jepsen, A. Sborg, A.R. Pedersen, Z. Yang; Development and control of an inverted pendulum driven by a reaction wheel; International Conference on Mechatronics and Automation (2009), pp. 2829–2834
[12] R. Olfati-Saber; Global stabilization of a flat underactuated system: the inertia wheel pendulum; Proc. 40th IEEE Conf. on Decision and Control, vol. 4, Orlando, FL (2001), pp. 3764–3765
[12] S.N. Kadam, B. Seth; LQR controller of one wheel robot stabilized by reaction wheel principle; 2nd Int. Conf. on Instrum., Contr. and Autom (2011), pp. 299–303
[14] S.Y. Seo, S.H. Kim, S.-H. Lee, S.-H. Han, H.S. Kim; Simulation of attitude control of a wheeled inverted pendulum; Int. Conf. on Contr., Autom. and Syst, Seoul (2007), pp. 2264–2269
[15] V. Mladenov; Application of neural networks for control of inverted pendulum; WSEAS Trans. on Circuits and Syst., 10 (2) (Feb 2011), pp. 49–58
[16] S. Jung, S.S. Kim; Control experiment of a wheel-driven mobile inverted pendulum using neural network; IEEE Trans. on Control Syst. Technol., 16 (2) (Mar 2008), pp. 297–303
[17] S. Cong, Y. Liang; PID-Like neural network nonlinear adaptive control for uncertain multivariable motion control systems; IEEE Trans. on Ind. Electron., 56 (10) (Oct 2009), pp. 3872–3879
[18] S. Sharma, V. Kumar, R. Kumar; Supervised online adaptive control of inverted pendulum system using adaline artificial neural network with varying system parameters and external disturbance; Int. J. of Intelligent Syst. and Appl., 4 (8) (Jul 2012), pp. 53–61
[19] J. Yi, N. Yubazaki; Stabilization fuzzy control of inverted pendulum systems; Artificial Intell. in Eng., 14 (2) (Apr 2000), pp. 153–163
[20] J. Yi, N. Yubazaki, K. Hirota; Stabilization control of series-type double inverted pendulum systems using the SIRMs dynamically connected fuzzy inference model; Artificial Intell. in Eng., 15 (3) (Jul 2001), pp. 297–308
[21] J. Yi, N. Yubazaki, K. Hirota; A new fuzzy controller for stabilization of parallel-type double inverted pendulum system; Fuzzy Sets and Syst., 126 (1) (Feb 2002), pp. 105–119
[22] Z. Li, C. Xu; Adaptive fuzzy logic control of dynamic balance and motion for wheeled inverted pendulums; Fuzzy Sets and Syst., 160 (12) (Jun 2009), pp. 1787–1803
[22] P.K. Kim, S. Jung; Experimental studies of neural network control for one-wheel mobile robot; J. of Control Science and Eng., 2012 (Feb 2012), p. 12
[24] F.L. Lewis, A. Yesildirek, S. Jagannathan; Neural Network Control of Robot Manipulators and Nonlinear Systems; Taylor and Francis (1999)
[25] S. Haykin, Neural, Networks; A Comprehensive Foundation; Prentice Hall, Upper Saddle River, NJ (1999)
[26] H.K. Khalil; Nonlinear Systems; Prentice Hall, Upper Saddler River (2002)
[27] P. Logothetis and J. Kieffer. (1996). “On the identification of the robot dynamics without acceleration measurements”. Internal Report, Faculty of Engineering and Information Technology, Australian National University. Available at http://citeseerx.ist.psu.edu/ viewdoc/summary?doi=10.1.1.55.8716.
[28] M. Gautier, Ph. Poignet; âœExtended Kalman filtering and weighted least squares dynamic identification of robotâ; Control Engineering Practice, 9 (12) (Dec. 2001), pp. 1361–1372

Resumen

Abstract

Palabras clave

Keywords

1. Introducción

2. Modelo dinámico del péndulo

3. Problemática a resolver

4. Controlador basado en el modelo

4.1. Dinámica interna

5. Control neuronal

6. Resultados

6.1. Sistema experimental

6.2. Resultados de la simulación

6.3. Resultados experimentales

7. Conclusiones

References

Document information

Document Score

Share this document

Keywords

claim authorship